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数据 仓库 是 将 大 量 传统 数据 库 数据 进行 抽取 、 清 洗 和 转换 ,并 按 主题 进行 重新 组 织 ,可 
比喻 为 随时 间 推 移 不 断 丰富 的 “宝藏 ”; 而 数据 挖掘 是 从 海量 数据 中 发 现 人 们 感 兴 趣 的 知 
识 , 这 些 知识 是 隐 含 的 、 事 先 未 知 的 潜在 有 用 信息 ,挖掘 的 知识 表示 形式 为 概念 .规则 、 规 律 
和 模式 等 ,可 比喻 为 “淘宝 ”"。 随 着 Internet 的 迅速 普及 和 广泛 应 用 ,每 天 都 产生 大 量 各 种 各 
样 的 信息 ,但 它们 背后 到 底 隐 藏 着 什么 ,这 驱使 人 类 不 断 探索 。 

工 和 欲 善 其 事 必 先 利 其 器 。 在 当今 信息 爆炸 的 时 代 ,数据 挖掘 堪 比 “利器 ”, 让 我 们 面 对 海 
量 数据 时 不 再 感到 茫然 和 不 知 所 措 。 随 着 数据 仓库 的 发 展 和 应 用 ,数据 挖掘 将 展现 无 限 的 
生机 和 活力 ,可 以 辅助 .部 分 代替 甚至 拓展 人 的 智能 和 决策 ,造福 人 类 。 

数据 经 整合 汇总 为 信息 ,信息 经 挖掘 抽象 为 知识 ,知识 是 智能 的 基石 。 因 此 ,信息 化 到 
知识 化 再 到 智能 化 将 是 人 类 社会 发 展 的 必然 趋势 。 数 据 仓 库 和 数据 挖掘 正 逐 步 渗 透 和 深入 
到 社会 的 各 个 领域 ,并 不 断 催生 新 的 应 用 。 

本 书 主要 介绍 数据 仓库 和 数据 挖掘 的 理论 方法 .技术 及 其 应 用 。 此 外 ,用 较 多 篇 幅 半 
述 数据 仓库 和 数据 挖掘 新 的 应 用 实例 。 

全 书 分 为 三 篇 。 第 一 篇 介绍 数据 仓库 的 起 源 和 演变 过 程 ,阐述 数据 仓库 的 定义 、 体 系 结 
构 \ 组 成 .元 数据 数据 粒度 和 数据 模型 以 及 ETL 过 程 ,论述 数据 仓库 设计 和 实现 的 方法 ,并 
结合 具体 应 用 详细 阐述 了 如 何 构 建 数 据 仓 库 及 其 主要 应 用 ,包括 OLAP 和 OLAM 等 。 第 
二 篇 介绍 数据 挖掘 的 起 源 和 发 展 趋势 ,以 及 数据 挖掘 与 Web 挖掘 的 技术 和 方法 ,包括 聚 类 
分 析 、 分 类 、 预 测 和 关联 分 析 等 ,详细 分 析 了 数据 挖掘 在 电信 和 领域 的 具体 应 用 ,如 客户 细 分 、 
重 入 网 识别 和 WAP 日 志 挖 掘 等 。 第 三 篇 讨论 数据 \ 信 息 和 知识 的 关系 ,论述 知识 表示 的 主 
要 方法 和 知识 管理 的 核心 技术 ,介绍 当前 研究 热点 一 一 语义 网 和 本 体 的 核心 技术 和 方法 ,分 
析 了 语义 网 和 本 体 的 主要 应 用 。 
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第 1 章 数据 仓库 基础 


进入 信息 时 代 以 来 ,特别 是 近 些 年 ,数据 库 规模 日 益 扩大 ,数据 呈 爆 炸 性 增长 。 图 灵 奖 
获得 者 吉姆 .格雷 提出 了 一 个 经 验 定律 , 即 网 络 环境 下 每 18 个 月 产生 的 数据 量 等 于 有 史 以 
来 的 数据 量 之 和 ,仅仅 依靠 数据 库 管理 系统 的 查询 检索 机 制 和 统计 分 析 方 法 ,已 经 远 远 不 能 
满足 实际 需求 ,面临 着 “数据 爆炸 ,知识 匮乏 ”的 严峻 挑战 。 例 如 股票 经 纪 人 需要 从 日 积 月 累 
的 大 量 股票 行情 变化 的 历史 记录 (数据 ) 中 发 现 其 规律 以 预测 未 来 的 趋势 ; 天 文学 家 需要 从 
获取 的 观测 数据 (其 规模 可 达 数 千 吉 字 节 ) 中 发 现 新 的 遥远 天 体 及 其 运动 规律 ; 医生 需要 从 
大 量 病人 电子 病历 中 发 现 某 种 疾病 的 起 因 、 症 状 等 。 这 些 数据 的 共同 特点 是 : 其 一 数据 量 
巨大 ,一 般 都 是 GB 级 乃至 TB 级 ; 其 二 都 以 结构 化 的 形式 存储 在 数据 库 中 ,包含 了 大 量 潜 
在 ` 有 价值 的 知识 ,有 的 已 被 发 现 ,有 的 还 未 被 发 现 。 如 何 有 效 地 管理 和 利用 数据 库 中 的 海 
量 数据 ,以 及 如 何 发 现 其 中 潜在 的 知识 ,需要 一 种 新 的 、 更 为 有 效 的 手段 对 各 种 数据 源 进 行 
整合 并 挖掘 以 发 现 新 知识 ,更 好 地 发 挥 这 些 数据 的 潜能 。 因 此 ,数据 仓库 (Data Warehouse. 
DW) 和 数据 挖掘 (Data Mining,DM) 技 术 应 运 而 生 。 

数据 仓库 是 一 个 可 更 好 地 支持 企业 或 组 织 决策 ,面向 主题 的 、 集 成 的 .相对 稳定 的 、 随 时 
间 不 断 变 化 的 数据 集合 ; 数据 挖掘 则 是 使 用 计算 机 对 大 量 数据 进行 快速 有效 地 分 析 和 处 
理 , 从 中 提取 知识 ,并 以 一 种 形式 化 的 、 可 以 理解 的 方式 表达 ,以 便于 决策 的 过 程 。 目 前 , 数 
据 仓 库 和 数据 挖掘 技术 已 经 成 为 计算 机 领域 的 研究 热点 之 一 ,引起 了 数据 库 、 机 器 学 习 、 统 
计 分 析 等 领域 专家 的 广泛 关注 。 


数据 仓库 是 建立 在 传统 事务 型 数据 库 的 基础 之 上 ,为 企业 决策 支持 系统 (Decision 
Support System,DSS) 及 数据 挖掘 系统 提供 数据 源 。 到 目前 为 止 , 国 外 数据 仓库 已 经 发 展 
了 十 几 年 的 时 间 , 国 内 虽然 起 步 较 晚 ,但 发 展 较为 迅速 。 目 前 已 有 众多 的 大 型 公司 或 企业 正 
在 建 或 计划 建设 不 同 规模 的 数据 仓库 。 

传统 数据 库 ( 普 通 数据 库 ) 和 数据 仓库 最 根本 的 区 别 在 于 其 侧重 点 的 不 同 。 数 据 处 理 分 
为 事务 型 处 理 又 称 联机 事务 处 理 (Online Transaction Processing. OLTP) 和 分 析 型 处 理 又 
称 联机 分 析 处 理 (Online Analytical Processing,OLAP) 两 大 类 。 事务 型 处 理 以 传统 的 数据 
库 为 中 心 进 行 企业 日 常 的 业务 处 理 ; 分 析 型 处 理 以 数据 仓库 为 中 心 分 析 数 据 背 后 的 关联 和 
规律 ,为 企业 的 决策 提供 可 靠 、 有 效 的 依据 。 事 务 型 处 理 和 分 析 型 处 理 的 分 离 , 划 清 了 数据 
处 理 的 分 析 型 环境 与 事务 型 环境 之 间 的 界限 。 从 而 由 原来 以 单一 数据 库 为 中 心 的 数据 环境 
演变 为 以 数据 库 为 中 心 的 事务 处 理 系统 和 以 数据 仓库 为 基础 的 分 析 处 理 系统 。 企 业 的 生产 
环境 也 从 以 数据 库 为 中 心 发 展 为 以 数据 库 和 数据 仓库 为 中 心 。 因 此 ,在 事务 处 理 环境 中 直 


原理 及 应 用 


接 构 建 分 析 处 理应 用 是 不 合适 的 ,要 提高 分 析 和 决策 的 效率 和 有 效 性 ,分 析 型 处 理 及 其 数据 
必须 与 操作 型 处 理 及 其 数据 相 分 离 ,必须 把 分 析 型 数据 从 事务 处 理 环境 中 提取 出 来 ,按照 决 
策 支持 的 需要 重新 组 织 ,建立 单独 的 分 析 处 理 环境 ,数据 仓库 正 是 为 了 构建 这 种 新 的 分 析 处 
理 环境 而 出 现 的 一 种 数据 存储 和 组 织 技术 。 

传统 数据 库 的 主要 任务 是 进行 事务 处 理 , 所 关注 的 是 事务 处 理 的 及 时 性 .完整 性 和 
正确 性 ,在 数据 分 析 方面 则 存在 着 诸多 不 足 , 主 要 体现 在 缺乏 集成 性 .主题 不 明确 等 多 个 
方面 。 

1. 缺乏 集成 性 

首先 ,企业 数据 库 系统 与 部 门 条 块 分 割 , 导 致 数据 分 布 的 分 散 化 与 无 序 化 。 在 一 个 企业 
内 部 ,生产 、 销 售 和 财务 等 部 门 往往 各 自 使 用 一 套 满 足 自 身 工作 需要 的 应 用 程序 。 各 个 部 门 
的 应 用 系统 往往 不 能 数据 共享 ,缺乏 数据 的 统一 管理 和 维护 。 这 样 企 业内 部 尽管 拥有 的 数 
据 量 极 大 ,但 各 自封 闭 ,构成 相互 独立 的 所 谓 “ 信 息 孤 岛 群 ”, 无 法 形成 统一 体 。 其 次 ,业务 数 
据 库 缺乏 统一 的 定义 与 口径 ,导致 数据 定义 存在 歧义 。 

2. 主题 不 明确 

建立 传统 数据 库 的 目的 是 为 了 满足 事务 处 理 的 需要 ,数据 库 和 表 的 定义 与 设计 完全 以 
此 为 基础 。 而 对 于 数据 分 析 而 言 ,这 些 库 和 表 无 疑 缺 少 明确 的 主题 。 

3. 分 析 处 理 效 率 低 

设计 基于 传统 数据 库 的 应 用 系统 的 核心 准则 是 保证 事务 处 理 及 时 而 准确 。 显 然 ,对 处 
理 大 量 分 析 型 数据 的 效率 无 法 保证 。 

数据 仓库 是 因为 用 户 需求 增加 而 对 某 一 类 数据 库 应 用 范围 的 界定 。 仅 从 数据 存储 容器 
的 角度 而 言 ,数据 仓库 与 数据 库 并 没有 本 质 的 区 别 。 而 且 很 多 时 候 , 数 据 仓 库 是 作为 一 个 数 
据 库 应 用 系统 来 看 待 的 。 因 此 ,不 应 该 说 数据 库 到 数据 仓库 是 技术 的 进步 。 

通常 ,数据 仓库 是 在 传统 数据 库 的 基础 上 发 展 起 来 的 ,建立 在 异 构 的 业务 数据 库 基 础 
上 。 尽 管 传 统 数据 库 对 处 理 分 析 型 数据 存在 缺陷 ,但 数据 仓库 并 不 是 对 数据 库 的 彻底 抛弃 。 
两 者 存在 诸多 差别 ,如 表 1. 1 所 示 。 


表 1.1 数据 库 与 数据 仓库 的 比较 


数据 库 数据 仓库 
内 容 与 业务 相关 的 数据 与 决策 相关 的 信息 
数据 模型 ”| 关系 、 层 次 结构 关系 、 多 维 结构 
访问 经 常 是 随机 地 读 、 写 操作 经 常 是 只 读 操 作 
负载 事务 处 理 量 大 ,但 每 个 事务 涉及 的 记录 数 很 少 | 查询 量 小 ,但 每 次 需要 查询 大 量 的 记录 
事务 输出 | 一 般 很 少 可 能 非常 大 
停机 可 能 意味 着 灾难 性 错误 可 能 意味 着 延迟 决策 


从 数据 库 到 数据 仓库 演变 的 具体 过 程 如 图 1. 1 所 示 。 


数据 收集 和 数据 库 创建 


(20 世 纪 60 年 代 及 更 早期 ) 
原始 文件 处 理 


数据 库 管理 系统 
(20 世 纪 70 年 代 ) 
。 层次 和 网 状 数据 库 
。 关 系数 据 库 系 统 
。 数 据 建 模 工具 : 实体 -关系 模型 
* 索引 和 数据 组 织 技术 : B+ 树 ， 散 列 等 
。 查询 语言 : SQL 等 
。 用 户 界面 : 表单 、 报 告 等 
。 查 询 处 理 和 优化 


。 事 务 管理 :恢复 和 并 发 控制 等 
。 联机 事务 处 理 (OLTP) 
SIARRA 
* o 基于 Web 的 数据 库 系 统 
20 世纪 80 年 代 中 期 至 今 ) Co 世纪 90 年 代 至 今 ) 
。 高 级 数据 模型 - 
扩充 关系 、 面 向 对 象 、 。 基 于 XML 的 数据 库 系统 
对 象 -关系 、 演 绎 。Web 挖 所 
。 面 向 应 用 
空间 的 、 时 间 的 、 多 媒体 
的 、 主动 的 、 科学 的 知识 座 
数据 仓库 和 数据 挖 所 


(20 世 纪 80 年 代 后 期 至 今 ) 


。 数 据 仓库 和 OLAP 技 术 
。 数 据 挖掘 和 知识 发 现 


新 一 代 综合 信息 系统 
(2000 年 一 ) 


图 1.1 数据 库 到 数据 仓库 的 演变 过 程 


1.1.2 定义 


数据 仓库 的 概念 最 早出 现 于 20 世纪 80 年 代 。1993 年 ,被 称 为 “数据 仓库 之 父 ” 的 
William H. Inmon 首次 系统 地 阐述 了 数据 仓库 定义 , 即 一 个 面向 主题 的 、 集 成 的 \ 不 可 修改 
的 且 随 时 间 变 化 的 数据 集合 ,以 支持 管理 人 员 的 决策 。 

面向 主题 是 相对 于 传统 数据 库 的 面向 应 用 而 言 。 所 谓 面向 应 用 是 指 系统 实现 过 程 中 主 
要 围绕 着 一 些 应 用 或 功能 ,而 面向 主题 则 是 考虑 一 个 个 的 问题 域 ,对 问题 域 涉及 的 数据 和 分 
析 数 据 所 采用 的 功能 给 予 同 样 的 重视 。 数 据 仓库 是 面向 在 数据 模型 中 已 定义 业务 的 主要 主 


EmBEES m- 


Ut 


原理 及 应 用 


题 域 的 ,例如 在 电信 和 领域 中 典型 的 主题 域 包括 客户 .产品 资源 .渠道 .服务 和 竞争 等 。 

集成 是 指数 据 仓库 中 的 数据 来 自 不 同 的 数据 源 。 由 于 历史 的 原因 ,各 数据 源 的 组 织 结 
构 往 往 不 同 , 在 这 些 异 构 的 数据 导入 到 数据 仓库 之 前 ,必须 经 过 一 个 集成 过 程 。 在 数据 仓库 
的 所 有 特点 中 这 是 最 重要 的 。 应 用 系统 的 设计 人 员 历 经 多 年 制定 出 来 的 不 同 的 设计 策略 有 
很 多 种 不 同 的 表示 方法 ,在 编码 、 命 名 习惯 、 属 性 和 属性 度量 等 方面 往往 是 不 一 致 的 。 当 数 
据 导 入 数据 仓库 时 ,需要 采用 某 种 方法 来 消除 应 用 系统 中 存在 的 不 一 致 性 。 例 如 ,对 “客户 
性 别 编 码 时 ,在 数据 仓库 中 编码 为 * 男 / 女 ? 或 是 m/f 并 不 重要 ,重要 的 是 无 论 使 用 什么 原 
始 应 用 系统 ,在 数据 仓库 中 都 应 该 有 一 致 的 编码 。 如 果 应 用 系统 中 编码 为 X/Y, 则 在 其 导 
入 数据 仓库 时 就 应 进行 转换 。 对 所 有 的 应 用 都 要 考虑 一 致 性 ,如 命名 习惯 、 键 码 结构 、 属 性 
度量 以 及 数据 特点 等 。 

与 面向 应 用 的 事务 数据 库 需 要 对 数据 进行 频繁 地 插入 、 更 新 操作 不 同 的 是 ,数据 仓库 中 
数据 的 操作 仅 限于 数据 的 初始 导入 和 记录 查询 ,而 不 能 修改 。 数 据 库 处 理 数据 时 ,一 般 是 一 
次 访问 和 处 理 一 条 记录 ,也 可 以 对 操作 型 数据 进行 更 新 。 但 数据 仓库 中 的 数据 通常 是 一 起 
载 人 与 访问 ,在 数据 仓库 中 并 不 进行 一 般 意义 上 的 数据 更 新 。 

随时 间 变 化 是 指数 据 仓库 以 维 的 形式 对 数据 进行 组 织 , 时 间 维 是 数据 仓库 中 很 重要 的 
维度 之 一 ,并 且 数 据 仓库 中 数据 的 时 间 跨 度 较 大 ,从 几 年 甚至 到 几 十 年 , 称 之 为 历史 数据 。 
数据 仓库 中 数据 随时 间 变 化 的 特性 表现 在 以 下 几 个 方面 : 

(1) 数据 仓库 中 数据 的 时 间 期 限 要 远 远 长 于 操作 型 数据 库 中 数据 的 时 间 期 限 。 操 作 型 数 
据 库 中 数据 的 时 间 期 限 一 般 是 60 一 90 天 ,而 数据 仓库 中 数据 的 时 间 期 限 通常 是 5 一 10 年 。 

(2) 操作 型 数据 库 含有 “当前 值 ” 的 数据 ,这 些 数 据 的 准确 性 在 访问 时 是 有 效 的 ,同样 当 
前 值 的 数据 可 被 更 新 。 而 数据 仓库 中 的 数据 仅仅 是 一 系列 某 一 时 刻 生 成 的 复杂 快照 。 

(3) 操作 型 数据 的 键 码 结构 可 能 包含 也 可 能 不 包含 时 间 元 素 , 如 年 .月 和 日 等 ,而 数据 
仓库 的 键 码 结构 总 是 包含 某 一 时 间 元 素 。 

数据 仓库 是 DSS 的 基础 。 因 为 在 数据 仓库 中 只 有 单一 集成 的 数据 源 ,并 且 数 据 是 可 访 
问 的 。 与 传统 数据 库 相 比 ,在 数据 仓库 中 DSS 分 析 人 员 的 工作 将 容易 得 多 。 


1.2 体系 结构 


1.2.1 两 层 的 体系 结构 


由 数据 仓库 的 定义 可 知 , 它 是 将 企业 各 个 业务 系统 中 与 分 析 有 关 的 数据 集成 在 一 起 , 同 
时 数据 仓库 面向 的 应 用 是 分 析 型 操作 ,因此 形成 了 DB-DW 两 层 的 数据 仓库 体系 结构 ,如 
图 1.2 所 示 。 

其 中 ,业务 系统 作为 主要 的 分 析 数 据 来 源 ,其 数据 格式 主要 是 表 的 形式 。 实 际 中 ,由 于 
要 保证 不 影响 业务 系统 的 正常 运行 ,一般 不 直接 在 业务 系统 中 进行 数据 的 查询 和 抽取 ,而 是 
采取 备份 库 或 者 文件 传输 的 形式 进行 数据 仓库 的 数据 抽取 。 外 部 数据 源 是 指 信息 来 源 于 企 
业 的 外 部 ,描述 企业 运营 的 外 部 环境 与 企业 经 营 分 析 有 关 的 数据 ,如 各 个 企业 的 市 场 份额 
等 ,外 部 数据 作为 经 营 分 析 的 补充 ,对 企业 经 营 决策 的 正确 性 起 着 十 分 重要 的 作用 ,因此 应 
保证 外 部 数据 的 实时 性 和 准确 性 。 外 部 数据 源 具 有 多 样 性 的 特点 ,如 年 报 等 都 可 以 作为 外 
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业务 系统 数据 。 外 部 数据 
图 1.2 DB-DW 的 两 层 体 系 结构 


部 数据 源 , 同 时 外 部 数据 源 的 格式 也 不 统一 ,如 文本 ,数据 表格 、 图 像 和 声音 等 。 因 此 对 外 部 
数据 源 及 其 数据 格式 等 都 应 在 数据 仓库 的 元 数据 中 进行 记录 ,同时 元 数据 中 还 应 对 外 部 数 
据 的 可 信 程 度 有 一 定 评价 。 

由 于 数据 仓库 的 数据 源 不 统一 ,同时 源 数据 的 存储 形式 也 不 相同 ,因此 有 必要 在 数 
据 进 入 数据 仓库 前 先 将 数据 存放 在 一 个 统一 的 暂 存 区 中 ,引入 数据 暂 存 区 的 主要 作用 
如 下 : 

(1) 统一 不 同 数据 源 的 数据 格式 。 将 不 同 数据 源 中 不 同 的 数据 格式 转换 成 统一 的 数据 
格式 , 供 数 据 仓 库 统一 处 理 。 

(2) 进行 数据 的 初步 检查 。 在 数据 进入 数据 仓库 之 前 , 先 对 数据 进行 初步 检查 ,鉴于 不 
影响 数据 仓库 的 处 理 时 间 ,这 里 的 检查 将 仅 涉 及 比较 粗略 的 数据 检查 ,如 记录 数量 .关键 字 
段 是 否 丢失 等 ,对 于 错误 的 数据 暂 不 导入 数据 仓库 ,这 样 对 进入 数据 仓库 的 数据 质量 有 一 定 
保证 ,但 是 更 复杂 的 数据 清洁 工作 ,如 字段 格式 的 统一 以 及 数据 内 容 的 清洗 这 种 单一 记录 级 
的 处 理工 作 则 应 该 在 数据 抽取 时 完成 。 

数据 暂 存 区 可 以 多 种 存储 形式 实现 ,如 文件 目录 或 者 数据 库 表 的 形式 。 

数据 仓库 中 保存 了 大 量 的 历史 数据 ,同时 数据 仓库 面向 的 是 整个 企业 的 分 析 应 用 ,但 在 
实际 应 用 中 不 同 部 门 的 用 户 可 能 只 使 用 其 中 一 部 分 数据 ,从 处 理 速度 和 效率 的 角度 出 发 ,可 
以 将 这 部 分 数据 在 多 辑 或 者 物理 上 进行 分 离 , 使 用 户 无 需 到 数据 仓库 的 海量 数据 中 进行 查 
询 , 只 在 与 本 部 门 有 关 的 数据 集合 上 进行 操作 ,这 样 就 形成 了 数据 集 市 (data mart) 的 概念 ， 
它 是 指 面向 企业 的 某 个 部 门 ( 主 题 ) 而 在 逻辑 上 或 物理 上 划分 出 来 的 数据 仓库 的 数据 子 集 。 
将 数据 仓库 按照 数据 的 应 用 划分 为 多 个 数据 集 市 ,有 利于 数据 仓库 的 负载 均衡 ,保证 应 用 的 
执行 效率 。 同 时 ,由 于 数据 集 市 具有 统一 的 数据 来 源 一 一 数据 仓库 ,遵循 统一 的 数据 模型 ， 
保证 了 各 个 不 同 数据 集 市 中 数据 的 统一 。 
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可 以 看 出 数据 仓库 体系 结构 是 一 种 管道 过 滤器 的 结构 ,数据 从 数据 源 进 入 数据 仓库 到 
展示 给 最 终 用 户 ,都 有 一 定 的 关联 关系 ,因此 要 保证 数据 仓库 中 数据 处 理 的 合理 调度 , 则 需 
要 通过 数据 仓库 的 元 数据 完成 。 


1.2.2 三 层 的 体系 结构 


数据 仓库 的 提出 使 得 操作 型 处 理 和 分 析 型 处 理 得 以 分 离 , 从 而 形成 了 DB-DW 两 层 的 
体系 结构 ,但 是 在 企业 的 业务 处 理 中 存在 介 于 操作 型 和 分 析 型 之 间 的 需求 ,需要 对 短期 的 历 
史 数 据 进行 分 析 , 同 时 要 求 较 快 的 响应 速度 ,这 种 分 析 无 法 在 操作 型 数据 库 中 完成 ,因为 其 
保存 的 是 数据 的 瞬 态 信息 ,如 果 通 过 数据 仓库 完成 ,由 于 数据 仓库 保存 了 大 量 的 历史 数据 ， 
在 响应 时 间 上 无 法 满足 要 求 ,因此 提出 了 操作 型 数据 存储 (Operational Data Store. ODS) 的 
概念 ,ODS 数据 可 以 概括 为 面向 主题 的 .集成 的 ,可 变 的 和 当前 的 或 接近 当前 的 数据 。 其 
中 ,面向 主题 和 集成 的 特点 与 数据 仓库 的 概念 相似 ;“ 可 变 的 "是 指 ODS 数据 可 以 联机 改 
变 , 包 括 增加 、 删 除 和 更 新 等 操作 ;“ 当 前 的 ”是 指数 据 在 存 取 时 刻 是 最 新 的 ; 而 “接近 当前 ” 
是 指 存 取 的 数据 是 最 近 一 段 时 间 得 到 的 。 

面向 主题 和 集成 的 特点 使 得 ODS 数据 在 静态 特征 上 很 接近 数据 仓库 的 数据 ,但 是 
ODS 和 数据 仓库 之 间 存 在 重要 的 差别 ,主要 体现 在 以 下 三 个 方面 : 

CD 数据 的 内 容 不 同 。 数 据 仓库 中 历史 数据 是 指 长 期 保存 并 可 重复 查询 的 数据 , 既 保 
存 细节 数据 ,也 保存 综合 数据 。 而 ODS 一 般 只 保存 细节 数据 ,而 且 ODS 数据 是 可 以 更 新 
的 , 即 变 化 的 ,ODS 中 保存 的 历史 数据 也 是 近期 的 。 

(2) 就 数据 量 而 言 ,ODS 保存 的 数据 量 要 远 远 小 于 数据 仓库 的 数据 量 。 

(3) 面向 的 应 用 不 同 。 数 据 仓库 用 于 长 期 的 趋势 分 析 或 决策 支持 ,而 ODS 主要 是 支持 
企业 的 全 局 OLTP 和 即时 (up to the second) 决 策 分 析 应 用 。 

引入 ODS 后 ,原来 DB-DW 的 两 层 体系 结构 被 扩展 为 DB-ODS-DW 的 三 层 体系 结构 ， 
如 图 1. 3 所 示 。 

在 DB-ODS-DW 三 层 体系 结构 中 ,ODS 的 作用 可 以 概括 为 : 

(1) 为 数据 仓库 提供 数据 ,减少 数据 仓库 数据 抽取 的 复杂 性 。 由 ODS 的 定义 可 知 , 它 
具有 面向 主题 和 集成 两 个 特点 ,因此 来 自 业 务 系统 的 源 数 据 首 先进 入 ODS, 在 进入 ODS 时 
完成 数据 清洁 和 集成 的 工作 ,这 样 再 向 数据 仓库 提供 的 数据 就 是 清洁 的 和 统一 的 ,减轻 了 数 
据 仓 库 中 数据 抽取 的 工作 量 。 

(2) 即时 的 OLAP 分 析 。 由 于 在 业务 系统 中 需要 对 近期 或 当前 的 数据 进行 分 析 ,如 
果 该 任务 放 在 数据 仓库 中 完成 ,由 于 数据 仓库 相应 的 处 理 环节 较 多 ,同时 数据 仓库 保存 
了 大 量 的 历史 数据 ,如 果 要 完成 这 种 需求 势必 造成 留 给 数据 仓库 的 数据 处 理 时 间 减 少 ， 
所 以 将 这 部 分 任务 分 配给 ODS, 由 于 ODS 保存 了 近期 的 数据 ,可 以 完成 用 户 的 即时 分 析 
需求 。 

(3) 全 局 的 OLTP 操作 。 由 于 ODS 数据 的 集成 性 ,整合 了 企业 中 不 同业 务 系统 的 数 
据 , 同 时 ODS 数据 是 可 更 新 的 ,因此 ODS 可 以 提供 面向 企业 全 局 的 OLTP 操作 。 
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1.3 组 成 


数据 仓库 的 容量 一 般 都 是 在 100GB 以 上 。 传 统 的 关系 型 数据 库 是 针对 OLTP 的 ,并 不 
适用 于 数据 量 大 且 复杂 度 高 的 数据 仓库 。 因 此 ,数据 仓库 系统 必须 满足 

。 扩充 数据 仓库 的 数据 。 

。 每 日 对 数据 仓库 系统 的 管理 和 维护 。 

。 允许 客户 增加 需求 。 

要 充分 满足 上 述 三 点 并 不 容易 ,尤其 是 数据 仓库 最 终 以 自动 的 数据 分 析 处 理 为 目标 。 
扩充 数据 仓库 数据 是 非常 重要 的 ,其 重点 是 抽取 、 整 理 并 转换 数据 以 及 以 适当 的 方式 展现 给 
用 户 分 析 使 用 。 数 据 仓库 并 不 是 一 个 只 读 系统 ,虽然 说 事实 数据 导入 数据 仓库 之 后 就 不 会 
再 更 新 ,但 是 如 果 客 户 需求 改变 ,例如 希望 以 不 同 的 方式 浏览 相同 的 分 析 结 果 , 则 仍然 会 修 
订 索 引 数 据 。 每 日 对 数据 仓库 系统 的 管理 和 维护 与 传统 的 OLTP 系统 完全 不 同 ,因为 数据 
仓库 的 数据 量 远 比 OLTP 系统 大 得 多 ,所 以 需要 更 积极 的 管理 方式 。 例 如 添加 或 删除 数 
据 , 将 数据 仓库 数据 存 人 备 存 介质 ,由 备 存 介 质 加 载 数据 等 。 因 此 可 以 这 样 理解 ,数据 仓库 
是 一 个 持续 更 新 的 系统 ,以 满足 客户 新 的 管理 决策 需求 。 允 许 客户 增加 需求 的 能 力 似乎 是 
设计 数据 仓库 系统 时 最 困难 的 工作 ,因为 每 个 客户 都 有 各 种 不 同 的 需求 。 数 据 仓 库 除了 能 
够 允许 更 新 现 有 的 需求 外 ,还 应 该 可 以 增加 新 的 分 析 主 题 。 

数据 仓库 系统 应 该 具有 以 下 功能 : 

。 抽取 数据 与 加 载 数据 。 

。 整理 并 转换 数据 为 一 种 数据 仓库 适用 的 格式 。 

。 备份 与 备 存 数据 。 
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。 管理 所 有 的 查询 ,将 它们 导向 适当 的 数据 源 。 
数据 仓库 系统 的 组 成 如 图 1.4 所 示 ,其 中 包括 数据 ,信息 和 知识 三 个 层次 。 


数据 = 信息 一 知识 
URSUS 加 & 数据 查询 
m 
5 E] = 
一 一 器 器 OLAP 工 具 
外 部 数据 


仓库 管理 器 


图 1.4 数据 仓库 系统 的 组 成 


数据 仓库 系统 的 管理 器 一 般 可 细 分 为 三 种 。 

。 加 载 管理 器 : 抽取 并 加 载 数据 ,在 加 载 数据 之 前 与 过 程 中 执行 简单 的 转换 。 

o 仓库 管理 器 : 转换 并 管理 数据 仓库 数据 ,备份 与 备 存 数据 。 

。 查询 管理 器 : 引导 并 管理 数据 仓库 的 查询 。 

1. 加 载 管理 器 

加 载 管 理 器 主要 是 支持 数据 的 抽取 和 加 载 ,可 以 由 一 些 外 购 的 软件 工具 、 针 对 特殊 需要 
而 编写 的 程序 ,存储 过 程 以 及 脚本 文件 组 成 。 用 户 可 以 尽量 选用 适合 的 软件 工具 协助 进行 
整个 加 载 管理 工作 ,但 是 因为 加 载 管理 器 是 每 个 数据 仓库 中 功能 最 无 法 正规 化 的 部 分 ,会 
原始 数据 的 特性 而 存在 很 大 差异 ,所 以 不 可 能 完全 使 用 外 购 的 软件 工具 ,必须 自行 设计 针对 
特殊 需要 而 编写 程序 .存储 过 程 或 脚本 文件 。 

加 载 管理 器 应 该 具备 以 下 功能 : 

* 自 源 系 统 抽取 数据 。 

o 将 抽取 的 数据 快速 加 载 到 临时 存储 介质 。 

。 执行 简单 的 数据 转换 。 

。 将 转换 后 的 数据 加 载 至 与 数据 仓库 类 似 的 数据 结构 之 中 。 

加 载 管理 器 的 构成 如 图 1.5 所 示 。 

上 述 所 有 功能 都 应 能 自动 执行 ,至 于 数据 错误 修正 部 分 ,也 应 该 尽量 避免 人 工 介入 。 

每 一 种 关系 数据 库 产品 都 会 提供 数据 快速 加 载 工具 ,至 于 数据 拷贝 管理 工具 则 会 提 
供 某 种 转换 功能 。 如 果 数 据 源 需要 比较 复杂 的 转换 ,可 以 自行 使 用 C/C++ 或 存储 过 程 纺 
写 转换 程序 ,至 于 工作 控制 流程 则 可 以 使 用 操作 系统 提供 的 功能 或 编写 控制 用 的 脚本 
X4. 

因为 数据 仓库 的 数据 量 非常 庞大 ,所 以 需要 快速 的 加 载 工具 。 一 般 而 言 ,可 以 将 原始 数 
据 先 加 载 到 关系 数据 库 , 然 后 再 进行 数据 验证 。 

当 原 始 数据 已 经 导入 临时 存储 介质 后 ,可 以 利用 数据 库 本 身 的 功能 与 外 购 的 软件 工具 
进行 简单 的 转换 ,这 些 转换 不 包括 复杂 的 逻辑 运算 也 不 会 使 用 到 关联 操作 。 当 简单 的 数据 


控制 程序 


存储 程序 


暂时 数据 存储 


加 载 管理 器 


数据 拷贝 管理 工具 


快速 加 载 程序 


图 1.5 加 载 管理 器 的 构成 


转换 执行 完毕 ,可 以 使 用 自行 设计 的 软件 工具 进行 与 数据 仓库 相关 以 及 较 复 杂 的 转换 。 下 
面 列 出 了 一 些 可 以 在 本 阶段 执行 的 数据 转换 与 检验 功能 ， 

。 删除 在 数据 仓库 中 不 必要 的 字段 。 

。 将 所 有 的 数值 转换 为 所 需 的 数据 类 型 。 

。 将 每 个 字段 转换 为 正确 的 格式 (例如 删除 前 置 空格 符 等 ) 。 

。 根据 企业 需求 校 验 字段 值 是 否 有 效 。 

。 检验 数据 仓库 所 需 字 段 是 否 有 数据 。 

2. 仓库 管理 器 

仓库 管理 器 执行 管理 一 个 数据 仓库 所 有 的 必要 程序 ,可 以 由 一 些 外 购 的 系统 管理 工具 、 
针对 特殊 需要 而 编写 的 程序 及 脚本 文件 组 成 ,仓库 管理 器 的 复杂 度 因 自动 化 的 程度 而 异 。 
仓库 管理 器 的 构成 如 图 1. 6 所 示 。 
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暂时 数据 存储 
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图 1.6 仓库 管理 器 的 构成 


仓库 管理 器 执行 以 下 功能 : 
。 检验 各 字段 相互 之 间 的 关系 与 一 致 性 。 
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* 将 临时 存储 介质 中 的 数据 进行 转换 与 合并 ,然后 加 载 到 数据 仓库 。 

* 对 数据 仓库 数据 添加 索引 、 视 图 和 数据 分 区 。 

* 根据 需要 将 数据 进行 正规 化 。 

。 根据 需要 生成 新 的 集合 信息 。 

。 更 新 已 有 的 集合 信息 。 

。 备份 数据 仓库 (完整 或 递增 式 ) 。 

。 备 存 数据 仓库 中 过 时 的 数据 ( 移 存 至 其 他 存储 介质 ) 。 

用 户 可 以 使 用 C/C++ 或 存储 过 程 将 数据 导入 到 数据 仓库 ,添加 索引 、 视 图 和 数据 分 区 ， 
生成 星 型 .雪花 型 数据 架构 ,生成 、 更 新 集合 信息 ; 可 以 使 用 操作 系统 与 数据 库 管 理 系 统 提 
供 的 工具 备份 数据 仓库 、 备 存 过 时 数据 ; 也 可 以 使 用 数据 仓库 系统 提供 的 分 析 工 具 分 析 查 
询 概 述 文件 。 

在 数据 仓库 中 可 以 将 数据 分 为 若干 个 数据 分 区 ,以 便于 管理 。 用 户 可 以 根据 数据 仓库 
中 数据 的 更 新 频率 创建 数据 分 区 ,如果 数据 仓库 周期 以 季度 为 单位 , 则 可 以 在 每 一 季度 结束 
后 将 加 入 的 历史 数据 创建 成 以 季度 为 单位 的 数据 分 区 ,而 且 可 以 定期 将 小 的 数据 分 区 并 和 
大 的 数据 分 区 。 

将 原始 数据 整理 ,检验 完毕 后 ,仓库 管理 器 会 把 数据 转换 为 一 种 适用 于 查询 管理 决策 信 
息 的 数据 结构 。 

数据 仓库 的 数据 是 由 事实 数据 与 维度 数据 组 成 的 ,事实 数据 是 能 够 反应 过 去 事实 的 数 
据 , 而 维度 数据 则 是 为 了 使 查询 更 加 快速 而 创建 的 索引 参考 数据 。 就 数据 仓库 的 数据 结构 
iti zi ,是 以 事实 表 为 中 心 ,各 个 维 表 位 于 四 周 而 形 成 的 一 个 星 型 模式 。 为 了 便于 快速 查询 ， 
仓库 管理 器 会 为 事实 表 和 维 表 创 建 索引 。 事 实 表 拥有 非常 多 的 记录 , 当 索 引文 件 大 到 一 定 
程度 时 ,将 索引 以 一 笔 一 笔 的 方式 添加 至 已 有 的 索引 ,不 见得 是 一 种 好 方法 。 如 果 事实 表 包 
含 了 很 多 记录 ,建议 先 删除 现存 的 索引 ,然后 再 重新 创建 索引 ,这 样 运 行 效率 较 高 。 维 表 的 
数据 量 虽然 也 不 小 ,但 是 比 起 事实 表 还 是 小 得 多 。 一 般 而 言 , 维 表 不 会 做 太 多 的 更 新 ,除非 
更 新 整个 维 表 ,一 般 不 需要 删除 维度 数据 再 重新 创建 索引 。 出 于 管理 方面 的 考虑 ,可 以 将 事 
实数 据 划分 为 多 个 数据 分 区 ,但 是 对 用 户 而 言 ,数据 分 区 则 是 完全 透明 的 。 为 了 使 用 户 看 到 
的 是 一 个 独立 完整 的 事实 表 , 仓 库 管理 器 创建 一 些 视图 将 整个 数据 分 区 合并 为 一 个 单 表 。 

若 数 据 仓库 周期 以 季度 为 单位 ,可 以 考虑 创建 以 下 视图 : 

。 为 上 半年 创建 一 个 视图 。 

。 为 当年 创建 一 个 视图 。 

。 为 上 一 年 创建 一 个 视图 。 

创建 视图 将 降低 查询 的 运行 效率 ,所 以 建议 在 一 个 视图 中 不 要 包含 过 多 的 数据 分 区 ,而 
且 不 要 创建 多 层 视 图 。 只 要 不 创建 包含 过 多 数据 分 区 的 视图 ,系统 都 可 以 自行 消化 掉 这 些 
工作 的 开销 。 当 数据 已 经 完全 加 载 了 数据 仓库 的 星 型 .雪花 型 架构 后 ,仓库 管理 器 将 创建 一 
系列 的 集合 信息 ,以 加 快 常用 的 一 般 性 查询 的 运行 速度 。 因 为 每 个 查询 都 是 在 抽取 某 一 维 
度 的 一 部 分 数据 集合 ,所 以 仓库 管理 器 会 以 此 为 基础 决定 要 计算 哪些 集合 信息 。 例 如 上 一 
季度 的 销售 量 、 某 一 部 门 的 销售 量 、 上 半年 整个 公司 的 销售 量 。 

仓库 管理 器 的 重要 任务 之 一 是 管理 查询 概述 文件 ,为 了 统计 数据 仓库 系统 内 常用 的 查 
询 ,查询 管理 器 搜集 所 有 的 查询 并 加 以 统计 分 析 ,归纳 出 为 哪些 常用 的 查询 创建 集合 信息 。 


查询 概述 文件 在 数据 仓库 中 是 一 种 元 数据 ,主要 描述 一 个 数据 仓库 中 所 有 查询 的 特性 。 
当 用 户 更 新 了 其 需求 之 后 ,仓库 管理 器 将 更 新 对 应 的 查询 概述 文件 ,然后 重新 生成 新 的 集合 
信息 。 可 以 使 用 存储 过 程 或 嵌入 式 C 编写 计算 集合 信息 的 应 用 程序 。 

一 般 的 数据 库 管理 系统 都 会 提供 搜集 查询 的 功能 , 当 仓 库 管 理 器 由 查询 管理 器 搜集 到 
足够 的 统计 信息 时 ,可 以 下 面 的 方式 执行 集合 信息 的 计算 工作 : 

。 将 SQL 查询 转换 为 星 型 查询 。 

。 分析 星 型 查询 ,检查 使 用 到 哪些 事实 数据 维度 数据 和 集合 信息 。 

。 决定 集合 信息 的 使 用 频率 (有 多 少 个 查询 使 用 一 项 集合 信息 ) 。 

。 检查 目前 的 查询 概述 文件 中 是 否 已 包含 该 项 集合 信息 。 

。 如 果 查 询 概 述 文件 尚未 包含 该 项 集合 信息 , 则 将 其 定义 加 入 。 

。 定期 检验 不 再 适用 的 集合 信息 ,并 将 其 定义 从 查询 概述 文件 中 删除 。 

。 定期 根据 修正 过 的 查询 概述 文件 重新 创建 新 的 集合 信息 。 

当然 ,仓库 管理 器 不 一 定 需要 为 查询 概述 文件 中 所 有 的 项 目 创建 集合 信息 ,因为 创建 集 
合 信息 需要 占用 系统 资源 。 如 果 数 据 仓 库 系 统 的 资源 有 限 ,可 以 根据 每 项 的 使 用 频率 设置 
优先 级 ,从 而 仅 为 某 些 优先 级 足够 高 的 项 目 计算 集合 信息 。 

3. 查询 管理 器 

查询 管理 器 执行 管理 数据 仓库 系统 中 所 有 查询 的 相关 处 理 程序 ,可 以 由 一 些 外 购 的 查 
询 工 具 数据 仓库 系统 所 提供 的 系统 监控 工具 数据 库 管理 系统 所 提供 的 管理 工具 、 针 对 特殊 
需要 而 编写 的 程序 以 及 脚本 文件 组 成 。 同 样 地 ,查询 管理 器 的 复杂 度 视 数据 仓库 系统 而 定 。 

查询 管理 器 的 构成 如 图 1.7 所 示 。 
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图 1.7 查询 管理 器 的 构成 


查询 管理 器 主要 执行 以 下 功能 ， 

。 将 查询 引导 至 正确 的 表 。 

* 为 所 有 的 用 户 查询 进行 调度 。 

可 以 使 用 用 户 存 取 工具 、 存 储 过 程 .C/C++ 程序 将 查询 引导 至 正确 的 表 ; 也 可 以 使 用 存 
取 工 具 、 存 储 过 程 .C/C++ 程序 数据库 管理 系统 提供 的 管理 工具 、 外 购 的 调度 软件 为 所 有 的 
用 户 查询 进行 调度 。 
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查询 管理 器 将 查询 统计 分 析 的 结果 存 人 查询 概述 文件 , 供 仓库 管理 器 使 用 ,以 决定 为 哪 
些 项 目 执行 数据 集合 的 工作 。 


1.4 元 数据 


1.4.1 定义 和 分 类 


元 数据 (metadata) 是 关于 数据 的 数据 。 在 数据 仓库 系统 中 ,元 数据 可 以 帮助 数据 仓库 
管理 员 和 数据 仓库 开发 人 员 非 常 方 便 地 找到 所 需 的 数据 。 元 数据 是 描述 数据 仓库 中 数据 结 
构 和 构建 方法 的 数据 。 

随 着 计算 机 技术 的 应 用 日 益 广泛 ,元 数据 得 到 人 们 越 来 越 多 的 关注 ,这 是 由 多 方面 的 需 
求 决定 的 。 

其 一 是 管理 数据 的 需求 。 当 系统 数据 量 越 来 越 大 ,检索 和 使 用 这 些 数据 的 效率 会 降低 ， 
通过 存储 关于 系统 和 数据 的 内 容 、 组 织 \ 特 性 等 细节 可 以 帮助 有 效 地 管理 ,从 而 提高 效率 。 

其 二 是 系统 分 布 . 互 通 和 重用 的 要 求 。 目 前 信息 系统 一 个 共同 的 趋势 是 信息 共享 ,要 实 
现 异 构 系 统 的 信息 共享 , 则 需要 描述 数据 语义 以 及 软件 开发 过 程 的 元 数据 ,而 且 这 些 元 数据 
必须 标准 化 ,以 充分 实现 分 布 .互通 和 重用 。 

其 三 是 元 数据 重用 、 综 合 的 需求 。 目 前 ,很 少 有 单一 工具 能 满足 大 型 商业 应 用 的 需求 ， 
用 户 常常 需要 使 用 多 种 工具 的 组 合 ,不 同 工 具 之 间 数 据 交换 的 途径 之 一 就 是 通过 标准 的 元 
数据 。 

在 过 去 的 几 年 里 ,元 数据 的 概念 在 现实 中 大 量 使 用 ,有 时 为 了 支持 信息 检索 ,有 时 为 了 
软件 配置 ,有 时 为 了 不 同系 统 之 间 的 数据 交互 。 对 于 不 同 的 领域 专家 ,元 数据 有 着 不 同 的 应 
用 ,但 至 少 有 两 点 是 共同 的 , 即 元 数据 是 对 数据 的 描述 ; 元 数据 的 存在 是 为 了 更 有 效 地 使 用 
数据 。 

对 于 元 数据 ,根据 观察 角度 的 不 同 ,可 以 划分 为 不 同 的 类 别 。 

按照 与 特定 领域 是 否 相关 可 划分 为 : 

(1) 与 特定 领域 相关 的 元 数据 : 描述 数据 在 此 特定 领域 内 的 公共 属性 。 

(2) 与 特定 领域 无 关 的 元 数据 : 描述 所 有 数据 的 公共 属性 。 

(3) 与 模型 相关 的 元 数据 : 描述 信息 和 元 信息 建 模 过 程 的 数据 。 此 类 元 数据 又 可 分 为 

CD 横向 模型 关联 元 数据 : 综合 现 有 的 两 个 或 多 个 信息 模型 ,例如 两 个 不 同 数据 库 之 间 
的 交互 ,从 多 个 数据 源 中 提取 数据 时 ,就 需要 这 种 横向 模型 元 数据 。 当 不 同 的 信息 模型 之 间 
进行 互通 时 ,需要 模型 中 各 个 层 的 关联 描述 , 即 横向 模型 关联 元 数据 。 

@ 纵向 模型 关联 元 数据 : 模型 信息 层 与 元 信息 层 之 间 的 关联 元 数据 。 不 同 的 层 可 以 
采用 不 同 的 模型 ,上 层 是 下 层 的 结构 描述 ,上 下 层 之 间 对 应 关联 , 即 纵向 模型 关联 元 数据 。 

(4) 其 他 元 数据 : 例如 系统 硬件 .软件 描述 和 系统 配置 描述 等 。 

按照 元 数据 的 应 用 场合 可 划分 为 : 

(1) 数据 元 数据 ,又 称 为 信息 系统 元 数据 。 信 息 系统 使 用 元 数据 描述 信息 源 , 以 按照 用 
户 需求 检索 、 存 取 和 理解 源 信息 。 因 此 .元 数据 保证 了 在 新 的 应 用 环境 中 使 用 信息 ,支持 了 


整个 信息 结构 的 演进 。 

(2) 过 程 元 数据 ,又 称 为 软件 结构 元 数据 。 它 是 关于 应 用 系统 的 信息 ,帮助 用 户 查找 、 
评估 、 存 取 和 管理 数据 。 大 型 软件 结构 中 包括 描述 各 个 组 件 接口 、 功 能 和 依赖 关系 的 元 数 
据 , 这 些 元 数据 保证 了 软件 组 件 的 灵活 、 动 态 配置 。 

按照 元 数据 的 具体 内 容 可 划分 为 : 

(1) A Content): 识别 定义 、 描 述 基本 数据 元 素 , 包 括 数 据 单元 、 合 法 值 域 等 。 

(2) 结构 (structure) : 在 相关 范围 内 定义 数据 元 素 的 逻辑 概念 集合 。 

(3) 表示 (representation) : 描述 每 一 个 值 域 (多 为 技术 相关 ) 的 物理 表示 ,以 及 数据 元 
素 集合 的 物理 存储 结构 。 

(4) 文法 (context) : 提供 基础 数据 的 族 系 和 属性 评估 ,包括 所 有 与 基础 数据 的 收集 、 处 
理 和 使 用 相关 的 信息 。 

元 数据 是 数据 仓库 系统 不 可 或 缺 的 重要 部 分 。 按 照 用 途 的 不 同 还 可 划分 为 技术 元 数据 
(technical metadata) 和 业务 元 数据 (business metadata) 两 大 类 。 技 术 元 数据 存储 关于 数据 
仓库 系统 技术 细节 的 数据 ,是 用 于 开发 和 管理 数据 仓库 使 用 的 数据 , 它 保 证 了 数据 仓库 系统 
的 正常 运行 ; 业务 元 数据 从 业务 角度 描述 数据 仓库 中 的 数据 , 它 提 供 介 于 使 用 者 和 实际 系 
统 之 间 的 语义 层 , 使 得 数据 仓库 使 用 人 员 能 够 “ 读 懂 ?数据 仓库 中 的 数据 。 


1.4.2 标准 化 


关于 元 数据 的 一 般 标准 ,就 内 容 而 言 大 致 可 分 为 两 类 : 一 是 元 数据 建 模 , 即 对 元 数据 的 
组 织 进行 规范 定义 ,使 得 在 元 数据 建 模 的 标准 制定 之 后 产生 的 元 数据 都 以 一 致 的 方式 组 织 ， 
从 而 保证 元 数据 管理 的 一 致 性 和 简单 性 ; 二 是 元 数据 交互 , 即 对 已 有 的 元 数据 组 织 方式 以 
及 相互 间 交 互 格式 进行 规范 定义 ,实现 不 同系 统 元 数据 的 交互 。 目 前 ,定义 元 数据 相关 规范 
的 主要 组 织 机 构 包 括 : 

1. 对 象 管理 组 织 

1995 年 对 象 管理 组 织 (Object Management Group,OMG) 采 用 了 MOF (Meta Object 
Facility, 元 对 象 工具 ) 并 不 断 完 善 ; 1997 年 采用 了 UML(Unified Modeling Language, 统 一 
建 模 语言 ); 2000 年 又 采用 了 CWM(Common Warehouse Metamodel, 通 用 仓库 元 模型 ) 。 
UML, MOF 和 CWM 这 三 个 标准 形成 了 OMG 建 模 和 元 数据 管理 ,交换 的 基础 ,推动 了 元 
数据 标准 化 的 快速 发 展 。 

2. 元 数据 联合 会 

元 数据 联合 会 (Meta Data Coalition. MDC) Ji sz. F 1995 年 , 旨 在 提供 标准 化 的 元 数据 
交互 。MDC 于 1996 年 开发 了 MDIS(Meta Data Interchange Specification) 并 完成 MDC- 
OIM 的 技术 评审 , MDC-OIM 基于 微软 的 开放 信息 模型 (Opening Information Model, 
OIM) ,是 一 个 独立 于 技术 的 、 以 厂商 为 核心 的 信息 模型 。OIM 是 微软 的 元 数据 管理 产品 
Microsoft Repository 的 一 部 分 ,由 微软 和 其 他 二 十 多 家 公司 共同 开发 ,做 为 微软 开放 过 程 
的 一 部 分 ,经 过 三 百 多 家 公司 评审 。 

为 了 推动 元 数据 的 标准 化 ,MDC 和 OMG 在 元 数据 标准 的 制定 上 协同 工作 。1999 年 4 
月 ,MDC 成 为 OMG 的 成 员 , 而 OMG 也 同时 成 为 MDC 的 成 员 。MDC 使 用 了 OMG 的 
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UML, mi MDC-OIM 中 的 数据 仓库 部 分 被 用 来 作为 OMG 的 公共 仓库 元 数据 交互 
(Common Warehouse Metadata Interchange,CWMD) 的 设计 参考 。 在 两 个 组 织 技术 力 量 的 
合作 努力 下 ,元 数据 标准 将 逐步 实现 标准 化 。 

下 面 将 重点 介绍 CWM。 


1.4.8 CWM 


目前 ,数据 仓库 产品 很 多 ,它们 对 元 数据 都 有 自己 的 定义 和 格式 ,因此 创建 ,管理 和 共享 
元 数据 很 耗 时 而 且 容 易 出 错 。 为 了 解决 上 述 问题 ,必须 采用 标准 的 语言 描述 数据 仓库 元 数 
据 的 结构 和 语义 ,并 提供 标准 的 元 数据 交换 机 制 。 

但 是 ,元 数据 的 交换 涉及 很 多 问题 ,例如 元 数据 的 表示 形式 以 及 交换 机 制 等 。 为 了 解决 
上 述 问题 ,2000 年 OMG 提出 一 套 关 于 数据 仓库 元 数据 的 CWM 规范 ,其 主要 目的 是 方便 
异 构 、 分 布 式 系统 中 的 数据 仓库 工具 数据 仓库 平台 以 及 元 数据 库 之 间 的 元 数据 交换 , 旨 在 
推动 数据 仓库 .商业 智能 和 知识 管理 方面 元 数据 的 共享 和 交换 。 与 OMG 合作 提出 CWM 
规范 的 公司 包括 IBM, Unisys, NCR, Hyperion Solutions, Oracle, UBS AG, Genesis 
Development, Dimension EDI 等 ,还 有 一 些 公 司 明 确 表 示 支 持 CWM, 包 括 Sun, HP, Data 
Access Technologies, InLine Software, Aonix, Hitachi 等 。 

1. 提出 的 背景 

提出 CWM 的 主要 原因 在 于 : 

(1) 从 数据 仓库 开发 者 的 角度 而 言 , 单 一 工具 很 少 能 完全 满足 用 户 不 断 变 化 的 需求 ,但 
同时 又 很 难 对 各 种 产品 进行 集成 ; 

(2) 从 数据 仓库 用 户 的 角度 而 言 , 面 对 的 信息 量 太 大 ,无 法 轻易 找到 真正 所 需 的 信息 ， 
而 且 把 这 些 信息 完整 正确 地 表示 出 来 也 是 一 个 挑战 ; 

(3) 从 数据 仓库 供应 商 的 角度 而 言 ,目前 信息 的 共享 还 没有 标准 格式 ,元 数据 集成 的 代 
价 太 大 。 

2. 基础 

CWM 主要 基于 以 下 三 个 工业 标准 , 即 : 

(1) UML 是 OMG 的 一 个 建 模 标准 。 

(2) MOF 是 OMG 关于 元 模型 和 元 数据 库 的 一 个 标准 。 

(3) XMICXML Metadata Interchange. XML 元 数据 交换 ) 是 OMG 关于 元 数据 交换 的 标准 。 

这 三 个 标准 是 OMG 元 数据 库 体系 结构 的 核心 ,UML 定义 了 表示 模型 和 元 模型 的 语法 
和 语义 ; MOF 为 构建 模型 和 元 模型 提供 可 扩展 的 框架 ,并 提供 存 取 元 数据 的 程序 接口 ; 而 
利用 XMI 则 可 以 将 元 数据 转换 为 标准 的 XML 数据 流 或 文件 格式 ,便于 交换 ,这 大 大 增强 
了 CWM 的 通用 性 。 

3. 层次 

为 了 说 明 CWM 和 这 三 个 标准 之 间 的 关系 ,首先 介绍 一 下 元 数据 的 层次 。 传 统 的 元 数 
据 包 括 四 个 层次 ,除了 最 底层 外 ,每 一 层 都 对 其 下 一 层 进行 描述 。 最 底层 是 用 户 对 象 层 
(MO) ,包括 用 户 描述 的 信息 ,这 些 信息 统称 为 数据 ; 上 一 层 是 模型 层 (M1), 由 描述 信息 的 
元 数据 组 成 ,在 这 一 层 元 数据 一 般 都 组 合成 模型 的 形式 ; 再 上 一 层 是 元 模型 层 (M2) ,由 定 


X M1 层 元 数据 格式 和 语义 的 描述 信息 组 成 , 即 元 元 数据 ,一 般 组 合成 元 模型 的 形式 。 最 高 
层 是 元 元 模型 层 (M3) , 它 定义 元 模型 的 结构 和 语义 。 四 层 结构 的 实例 如 图 1.8 所 示 。 


固定 的 元 元 模型 元 元 模型 (M3) 
MetaClass("Record", 
[MetaAttr(("name"). String), 
MetaAttr(("fields"), list<Field>)] 元 模型 (M2) 


MetaClass("Field". ...) 


Record("Student"), 
Field("name" , String) , 
(Field) "sex" , String)...) 


模型 (M1) 


信息 、 数 据 (M0) 


图 1.8 元 数据 层次 结构 的 实例 


Hp: 

CD 数据 层 是 学 生 记录 (Record) 的 实例 , 即 具体 的 某 个 学 生 。 

(2) 模型 层 描述 学 生 这 个 记录 类 型 的 内 容 , 它 有 一 个 名 字 (Student) 和 两 个 字段 (Field) ,每 
个 字段 都 有 一 个 名 称 和 类 型 ,例如 第 一 个 字段 的 名 称 是 name, 字 段 类 型 是 Strings 

(3) 元 模型 层 对 Record 这 一 类 型 进行 定义 ,在 这 一 层 Record 是 元 类 MetaClass 的 一 
个 实例 ,一 个 Record 拥有 两 个 元 属性 MetaAttribute, 第 一 个 name 定义 其 名 字 , 是 String 
类 型 ; 第 二 个 fields 定义 它 包 含 的 字段 集 , 字 段 集 的 成 员 是 Field 类 型 。 类 似 地 ,元 类 Field 
应 该 也 包含 两 个 元 属性 , 即 名 字 (Name) 和 类 型 (Type) 。 

(4) 元 元 模型 层 的 结构 基本 固定 , 它 将 所 有 概念 抽象 为 以 下 组 件 : 元 类 meta-Class、 元 
属性 meta-Attribute 和 元 关联 meta-Association ,并 定义 了 元 类 之 间 的 关系 ,主要 包括 包含 
(Contains) ,继承 (Generalizes) .类 型 引用 (IsOfType) 和 依赖 (DependsOn) 。 

理论 上 还 可 以 再 向 上 抽象 ,但 由 于 元 元 模型 层 是 自 描述 的 ,所 以 四 层 足 够 了 。 至 于 为 什 
么 要 抽象 出 上 面 两 层 , 则 是 为 了 支持 各 种 不 同 的 模型 和 元 模型 。 

综 上 所 述 ,OMG 的 上 述 规范 和 元 数据 四 层 结构 的 对 应 关系 如 表 1. 2 所 示 。 


R12 OMG 规范 和 元 数据 四 层 结构 的 对 应 关系 


元 数据 层次 MOF 术语 m wg 
M3 元 元 模型 MOF 模型 
M2 元 模型 .元 元 数据 UML 元 模型 CWM 元 模型 
MI 模型 .元 数据 UML 模型 CWM 模型 
Mo 对 象 数 据 数据 仓库 数据 
4. 组 成 


CWM 完整 地 描述 了 数据 仓库 元 数据 交换 的 语法 、 语 义 以 及 用 于 异 构 平 台 之 间 的 元 数 
据 交换 机 制 , 它 由 三 部 分 组 成 。 
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1) CWM 元 模型 

CWM 元 模型 描述 数据 仓库 的 组 成 元 素 , 用 户 可 以 按照 这 些 元 模型 开发 相应 的 组 件 , 例 
W ETL OLAP 和 数据 挖掘 等 。 为 了 降低 复杂 度 并 重用 ,CWM 元 模型 采用 分 层 的 方式 组 
织 所 包含 的 包 , 如 图 1.9 所 示 。 


管理 包 数据 仓库 处 理 数据 仓库 运行 

分 析 包 转换 OLAP 数据 挖掘 信息 可 视 化 业务 命名 

资源 包 面向 对 象 关系 记录 多 维 XML 

基础 包 业务 信息 数据 类 型 表达 式 关键 字 和 索引 | ”类 型 映射 软件 部 署 
UMLI.3 


图 1.9 CWM 元 模型 的 包 结构 


图 1.9 中 CWM 元 模型 主要 包括 四 层 : 基础 包 (Foundation) 资源 包 (Resource) , 2) Br 
包 (Analysis) 和 管理 包 (Management) 。 

基础 包 主 要 定义 为 CWM 其 他 包 所 共享 的 一 些 基本 概念 和 结构 ,包含 的 子 包 如 下 : 

(1) 业务 信息 (business information) : 定义 面向 业务 的 通用 信息 ,例如 负责 人 信息 等 。 

(2) 数据 类 型 (data types): 定义 其 他 包 用 以 创建 所 需 的 数据 类 型 的 元 模型 组 件 。 

(3) 表达 式 (expressions) : 定义 CWM 其 他 包 定 义 表 达 式 所 需 的 元 模型 组 件 。 

(4) 关键 字 和 索引 (keys and indexes): 定义 描述 关键 字 和 索引 的 共享 元 模型 。 

(5) 软件 部 署 (software deployment): 描述 一 个 软件 在 数据 仓库 中 如 何 被 使 用 的 元 模型 。 

(6) 类 型 映射 (type mapping): 支持 不 同系 统 之 间 数 据 类 型 映射 的 元 模型 。 

资源 包 主 要 定义 一 些 描述 常用 的 数据 源 /目标 的 元 模型 ,包含 的 子 包 如 下 : 

(1) 关系 (relational) : 描述 通过 关系 型 接口 访问 的 数据 库 的 数据 模型 和 元 模型 ,例如 
RDBMS, ODBC 和 JDBC 等 。 

(2) 记录 (record): 描述 记录 的 基本 概念 和 结构 的 元 模型 ,这 里 记录 的 概念 很 广泛 , 它 
可 以 描述 任何 结构 化 的 信息 ,例如 数据 库 的 一 条 记录 文档 等 。 

(3) Zt (multidimensional): 描述 多 维 数据 库 的 元 模型 。 

(4) XML: 描述 用 XML 表示 的 数据 源 和 数据 目标 。 

分 析 包 主 要 定义 一 些 描述 数据 仓库 工具 的 元 模型 ,包含 的 子 包 如 下 : 

(1) 转换 (transformation) : 定义 数据 仓库 中 抽取 转换 规则 的 元 模型 ,包含 对 各 种 类 型 
数据 源 之 间 转 换 规则 的 描述 。 

(2) OLAP: 对 OLAP 工具 和 应 用 进行 描述 ,并 定义 其 到 实际 系统 的 映射 。 

G) 数据 挖掘 (data mining): 对 数据 挖掘 工具 和 应 用 进行 描述 。 

(4) 信息 可 视 化 (information visualization); 定义 问题 域 中 有 关 信 息 发 布 或 信息 可 视 
化 的 元 模型 。 

(5) 业务 命名 (business nomenclature) : 对 业务 数据 进行 描述 ,例如 业务 术语 及 其 适用 
范围 等 。 

管理 包 主 要 定义 一 些 描述 数据 仓库 运行 和 调度 信息 的 元 模型 ,包含 的 子 包 如 下 : 

(1) 数据 仓库 处 理 (warehouse process) : 描述 数据 仓库 中 抽取 转换 规则 的 执行 过 程 , 即 
各 转换 规则 的 触发 条 件 。 


(2) 数据 仓库 运行 (warehouse operation): 描述 数据 仓库 日 常 运行 情况 的 元 模型 。 

2) CWM DTD 和 CWM XML 

CWM DTD fil CWM XML 是 对 应 于 CWM 中 所 有 包 的 DTD 和 XML, 它 们 都 遵循 
XMI 规范 。 定 义 CWM DTD 和 CWM XML 的 主要 目的 是 为 了 基于 XML 进行 元 数据 交 
换 。 因 为 XML 在 各 个 领域 的 应 用 越 来 越 广泛 .CWM 提供 元 模型 到 XML 的 转换 ,无 疑 增 
加 了 其 自身 的 通用 性 ,各 种 分 析 工 具 和 元 数据 库 可 以 利用 这 些 模板 为 其 元 模型 生成 DTD 
和 XML 文档 ,这 样 就 可 以 和 其 他 工具 之 间 进 行 元 数据 交换 。 

3) CWM IDL 

CWM IDL 为 上 述 所 有 的 包 定义 了 符合 MOF 1.3 的 IDL 接口 ,这 样 就 可 以 利用 CORBA 
进行 元 数据 交换 。 用 户 可 以 创建 一 些 具有 分 析 功 能 的 软件 包 , 例 如 数据 挖掘 组 件 等 ,提供 
CWM 中 规定 的 IDL 接口 ,就 可 以 被 其 他 支持 CWM 的 工具 和 数据 仓库 调用 ,这 大 大 增强 了 
CWM 的 灵活 性 和 适用 性 。 

5. 特点 

通过 对 CWM 组 成 的 介绍 ,可 以 看 出 CWM 具有 以 下 特点 : 

(1) 对 所 有 的 数据 仓库 功能 元 数据 定义 了 详细 的 元 模型 和 交换 方式 ,包括 技术 元 数据 
(例如 Software Deployment, Transformation, Warehouse Process 等 ) 和 业务 元 数据 (例如 
OLAP, Business Information 等 ) 。 

(2) 定义 了 一 个 通用 且 强 大 的 Transformation. 包 , 可 以 表示 任何 数据 源 和 数据 目标 之 间 
的 转换 规则 。 此 外 ,还 为 多 种 常用 的 数据 源 /目标 (例如 Relational, Record, Multidimensional , 
XML 等 ) 和 工具 相关 的 数据 源 ( 例 如 IMS, DMSIT, COBOL Data、Essbase 和 Express 等 ) 定 
义 了 元 模型 和 交换 方式 。 

(3) 对 所 有 的 数据 仓库 运行 元 素 定义 了 元 模型 和 交换 方式 ,包括 调度 、 状 态 报 告 和 历史 
记录 等 。 

(4) 对 所 有 的 分 析 型 数据 以 及 主要 的 分 析 型 数据 模型 定义 了 元 模型 和 交换 方式 ,例如 
多 维 模型 。 

(5) 对 操作 型 数据 以 及 主要 的 操作 型 数据 模型 定义 了 元 模型 ,例如 关系 型 和 面向 对 象 型 。 

6. 目标 和 原则 

CWM 的 主要 设计 目标 和 原则 如 下 : 

CD 对 UML 中 概念 的 重用 : UML 1. 3 是 整个 CWM 的 设计 基础 ,CWM 在 任何 可 能 
的 地 方 对 UML 中 的 概念 进行 重用 ,所 有 的 CWM 对 象 类 型 都 直接 或 间接 地 继承 于 UML， 
因此 也 继承 了 其 属性 和 方法 。 这 样 可 以 节省 很 多 重复 工作 ,并 且 使 CWM 更 容易 理解 ,所 有 
熟悉 UML 的 用 户 都 可 以 有 一 个 比较 高 的 起 点 。 

(2) 模块 化 : CWM 元 模型 被 分 成 许多 包 , 以 便 它们 分 别 实现 并 减少 复杂 度 。 

G) 通用 化 : CWM 元 模型 独立 于 任何 具体 的 数据 仓库 工具 。 同 时 , 它 尽 量 多 地 包含 了 
基于 特定 工具 实现 的 有 代表 性 且 通 用 的 数据 仓库 特点 。 换 言 之 ,只 有 那些 多 种 工具 共享 的 
信息 才 会 被 CWM 元 模型 所 包含 。 

7. 应 用 

CWM 主要 面向 以 下 几 类 用 户 : 

COD 数据 仓库 平台 和 工具 提供 商 : CWM 提供 了 一 个 组 件 可 插 缉 的 通用 系统 框架 ,因为 
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这 是 一 种 全 球 通用 的 元 数据 交换 协议 ,所 以 可 以 很 方便 地 在 各 种 异 构 平 台 上 发 布 自己 的 

(2) 数据 仓库 服务 提供 者 : 可 重用 、 可 编辑 、 可 扩展 的 CWM 元 数据 大 大 提高 了 工作 效 
率 。 因 为 CWM 与 产品 无 关 , 所 以 可 以 避免 大 量 的 重复 工作 。 

(3) 数据 仓库 管理 员 : 数据 仓库 管理 员 有 时 需要 对 现 有 工具 进行 整合 ,而 CWM XML 
无 疑 提供 了 一 种 最 方便 的 整合 方式 。 另 外 ,管理 员 经 常 需要 对 资源 进行 增 减 ,分 区 或 者 重新 
分 配 ,CWM 提供 了 这 方面 的 元 数据 以 帮助 完成 这 些 工作 ,并 对 改变 造成 的 影响 做 出 评估 。 

(4) 终端 用 户 : CWM 为 查询 和 展示 工具 定义 了 元 模型 ,更 方便 、 快 捷 地 为 其 展示 所 需 
的 信息 。 

C) 信息 技术 管理 员 : CWM 为 系统 管理 和 报表 工具 定义 了 元 模型 ,使 得 用 户 能 够 更 轻 
松 地 对 系统 和 信息 进行 管理 。 


1.4.4 UML.MOF ftl XMI 5 CWM 的 关系 


1. UML E CWM 

UML 是 一 种 面向 对 象 的 建 模 语言 ,由 面向 对 象 的 三 种 主流 建 模 语言 Booch, OMT 和 
OOSE 综合 而 得 ,后 来 被 OMG 定义 为 面向 对 象 建 模 的 标准 语言 。 目 前 有 很 多 图 形 工 具 支 
持 它 , 并 已 得 到 广泛 应 用 。 

UML 定义 了 多 种 模型 元 素 ,支持 面向 对 象 系统 的 静态 建 模 和 行为 建 模 。UML 静态 模 
型 包含 对 类 及 其 属性 、 操 作 、 接 口 的 定义 和 类 之 间 关 联 ( 例 如 继承 \ 依 赖 和 包含 等 ) 的 定义 。 
对 系统 行为 语义 的 建 模 可 以 用 序列 图 和 协作 图 完成 。CWM 规范 主要 使 用 UML 的 静 
态 图 。 

UML 语言 由 一 个 以 UML 表示 的 元 模型 (或 语义 模型 ) 定 义 ,这 种 递归 定义 使 得 整个 
UML 可 以 基于 非常 少 的 (三 个 ) 未 定义 元 素 。 此 外 ,MOF 定义 了 UML 的 元 元 模型 以 表示 
一 个 递归 的 UML 元 模型 的 语义 。 

CWM 元 模型 直接 从 UML 元 模型 继承 而 来 ,换言之 CWM 中 的 类 都 直接 或 间接 地 继 
KT UML 中 类 的 语法 和 语义 。 例 如 CWM Relational 包 中 的 关系 模型 定义 了 一 个 Table 
类 ,表示 任何 关系 数据 库 的 表 , 这 个 类 继承 于 UML 中 的 Class 类 。 类 似 地 ,Column 类 继 
IKF Attribute 类 ,这 就 建立 了 Table 和 Column 之 间 的 语义 关系 , 即 Table 是 一 些 Column 
的 集合 ,这 些 Column 具有 一 些 共同 的 属性 ,但 各 自 的 属性 值 不 同 。 这 等 同 于 UML 中 类 
和 属性 的 关系 ,把 Table 和 Column 分 别 作为 类 和 属性 的 子 类 就 内 在 地 确立 了 这 种 等 同 关 
系 。CWM 这 种 直接 从 UML 核心 元 模型 中 派生 出 数据 仓库 领域 元 模型 的 好 处 有 很 多 ， 
例如 : 

(1) CWM 元 模型 成 为 UML 核心 元 模型 的 扩展 , 即 可 以 直接 使 用 UML 作为 构建 数据 
仓库 领域 元 模型 和 模型 (元 模型 的 实例 ) 的 语言 。 

(2) CWM 可 以 直接 使 用 UML 图 形 标记 表示 数据 仓库 元 模型 。 

(3) CWM 可 以 直接 使 用 UML 元 模型 中 已 经 定义 的 语法 和 语义 ,无 需 重 新 定义 ,这 通 
常 指 对 抽象 层次 比较 高 的 元 类 及 其 关联 等 概念 的 重用 。 例 如 CWM Relational 包 中 的 元 类 
Table 和 Column 之 间 的 关系 继承 了 UML 中 的 元 类 Classifier 和 Feature 之 间 的 关系 ,在 


CWM 的 Relational 元 模型 中 就 无 需 明 确定 义 Table 和 Column 之 间 的 关联 。 

(4) CWM 元 模型 可 以 直接 使 用 UML 元 模型 中 定义 的 数据 类 型 。UML 元 模型 用 元 类 
DataType 定义 了 数据 类 型 的 概念 ,在 CWM 中 可 以 通过 为 DataType 定义 M2 层 描述 的 方 
式 对 其 扩展 ,添加 一 些 标准 的 数据 类 型 .如 SQL 或 CORBA 中 的 标准 类 型 等 。 

(5) CWM 使 用 UML 元 模型 作为 描述 面向 对 象 型 数据 源 的 元 模型 。 

(6) CWM 可 以 使 用 UML 规范 中 定义 的 OCL(Object Constraint Language. X} 22 29 9i 
语言 ) 表 示 对 CWM 元 模型 的 约束 条 件 。 

2. MOF 5 CWM 

MOF 是 OMG 用 来 定义 元 数据 并 将 其 表示 为 CORBA 对 象 的 一 种 技术 , 它 支持 任何 能 
用 对 象 建 模 技术 表示 的 元 数据 ,这 些 元 数据 可 以 按照 用 户 需求 在 任意 层次 .程度 描述 系统 的 
任何 信息 。 

模型 作为 一 种 对 现实 世界 的 描述 方法 也 是 元 数据 。 模 型 的 概念 是 高 度 可 变 的 , 它 依 赖 
于 观察 的 角度 。 例 如 对 于 那些 关心 整个 系统 的 人 而 言 , 模 型 应 该 包括 系统 所 有 的 元 数据 。 
在 MOF 中 ,模型 可 以 是 任意 具有 抽象 语法 和 语义 的 元 数据 的 集合 。 元 数据 本 身 就 是 一 种 
数据 ,因此 它 还 可 以 被 其 他 元 数据 描述 。 在 MOF 中 ,包含 这 种 元 数据 的 模型 称 为 元 模型 。 
MOF 元 模型 定义 了 用 MOF 格式 描述 模型 中 元 数据 的 抽象 语法 ,因为 一 个 系统 中 一 般 都 会 
有 很 多 类 型 的 元 数据 ,相应 地 就 会 有 多 种 元 模型 。 为 了 集成 这 些 元 模型 ,MOF 定义 了 一 套 
通用 的 元 模型 构造 语法 ,这 种 语法 称 为 MOF 模型 , 它 是 描述 元 模型 的 模型 。 实 际 上 , 它 处 
于 M3 层 , 应 该 是 元 元 模型 ,这 里 简称 为 MOF 模型 。 

MOF 规范 由 三 部 分 组 成 : MOF 模型 规范 、MOF IDL 映射 和 MOF 接口。 

MOF 模型 是 MOF 内 部 定义 的 元 元 模型 ,可 以 看 做 是 定义 MOF 元 模型 的 抽象 语言 ,这 
和 UML 元 模型 定义 UML 模型 类 似 , 只 不 过 前 者 是 为 了 元 数据 建 模 ,后 者 是 为 了 对 象 建 
模 。 实 际 上 ,基于 MOF 的 模型 就 是 用 UML 标识 表示 的 。MOF 主要 提供 四 种 组 件 构造 
MOF 元 模型 , 即 类 (class) .关联 (association)\ 包 (package) 和 数据 类 型 (data type)。 这 些 概 
念 和 UML 中 的 类 似 ,只 是 进行 了 一 些 简 化 ,具体 如 下 : 

(1) 处 于 定义 和 实现 层 的 类 都 可 以 拥有 属性 和 方法 。 在 MOF 元 模型 中 ,属性 表示 元 数 
据 ; 方法 提供 对 特定 元 模型 中 元 数据 的 操作 。 属 性 和 方法 的 参数 可 以 定义 为 有 序 。 

(2) 关联 支持 对 类 的 实例 的 二 元 连接 。 每 个 关联 都 有 两 个 端点 ,并 可 以 对 其 排序 性 和 
唯一 性 等 方面 进行 限制 。 如 果 一 个 类 是 一 个 关联 的 端点 ,那么 它 就 可 以 包含 通过 这 个 关联 
到 对 方 类 的 实例 的 引用 。 

G) 包 是 相关 的 类 和 关联 的 集合 。 包 之 间 可 以 引用 、 继 承 和 恋 套 。 

(4) 数据 类 型 使 属性 和 参数 可 以 使 用 非 对 象 的 类 型 。 在 MOF 中 ,它们 必须 是 能 够 用 
CORBA IDL 表示 的 数据 类 型 或 接口 类 型 。 

MOF IDL 映射 是 一 套 将 MOF 元 模型 映射 到 CORBA IDL 的 标准 模板 。MOF 元 素 
(M2 层 ) 到 CORBA 对 象 (M1 层 ) 的 映射 关系 如 下 : 类 映射 为 元 数据 对 象 的 IDL 接口 和 元 
数据 类 代理 ,IDL 接口 支持 原 类 中 定义 的 属性 、 操 作 和 引用 ,而 类 代理 提供 对 元 数据 对 象 的 
代理 操作 。MOF 关联 映射 为 元 数据 关联 代理 的 接口 .这 个 关联 代理 支持 对 关联 的 查询 和 
更 新 操作 。MOF 包 映 射 为 一 个 接口 和 元 数据 包 代理 ,这 一 包 代理 实际 上 是 包含 原 包 中 类 
和 关联 的 代理 的 容器 。 
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MOF 接口 是 表示 MOF 元 模型 的 CORBA 对 象 的 接口 ,一 般 使 用 现 有 工具 访问 MOF 
模型 库 , 其 建 模 开发 人 员 无 需 了 解 ,只 有 那些 开发 基于 MOF 工具 的 程序 员 才 需要 了 解 。 

OMG 已 经 采用 MOF 作为 定义 元 模型 的 标准 ,CWM 元 模型 就 遵循 这 一 标准 。 这 样 ， 
CWM 就 可 以 使 用 OMG 其 他 基于 MOF 的 标准 ,尤其 是 可 以 用 XMI 交换 CWM 模型 表示 
的 数据 仓库 元 数据 ,并 用 IDL 和 其 他 程序 语言 访问 这 些 元 数据 。 

3. XMI 与 CWM 

KMI 的 主要 作用 是 用 流 的 方式 进行 模型 交换 ,因为 OMG 采用 MOF 表示 元 数据 ,XMI 
的 重点 自然 就 是 MOF 元 数据 ( 即 遵 循 MOF 元 模型 的 元 数据 ) 的 交换 。XMI 支持 任何 能 用 
MOF 规范 表示 的 元 数据 的 交换 , 它 不 仅 可 以 对 整个 模型 或 部 分 模型 组 成 的 元 数据 进行 编 
码 , 还 可 以 对 特定 工具 扩展 的 元 数据 编码 。 

XMI 可 以 看 作 是 一 种 独立 于 中 间 件 的 通用 的 元 数据 交换 格式 ,任何 能 够 编写 和 解析 
XML 数据 流 的 元 数据 库 或 工具 之 间 都 可 以 进行 元 数据 交换 ,它们 无 需 实现 MOF 定义 的 
CORBA 接口 ,甚至 根本 不 用 支持 CORBA。XMI 还 为 非 MOF 的 元 数据 库 提 供 了 一 种 交换 
方式 ,只 要 它 能 够 将 自身 的 元 模型 映射 为 KMI 文档 即 可 。 

XMI 基 于 W3C 的 XML, 实 际 上 就 是 一 对 并 行 的 映射 ,一 个 在 MOF 元 模型 和 XML 
DTD 之 间 , 另 一 个 在 MOF 元 数据 和 XML 文档 之 间 。 

XMI 主要 由 以 下 两 部 分 组 成 : 

(OD XML 文档 生成 规则 : 定义 了 将 元 数据 编码 为 XML 格式 文档 的 规则 ,利用 这 一 规 
则 还 可 以 将 KMI 文档 解码 得 到 元 数据 。 

(2) XML DTD 生成 规则 : 定义 了 为 编码 后 的 元 数据 生成 XML DTD 的 规则 ,DTD 是 
XML 文档 的 语法 说 明 ,一 般 的 XML 工具 都 可 以 用 它 来 解析 和 验证 KMI 文档 。 

CWM 用 XMI 作为 交换 机 制 ,这 样 数据 仓库 元 数据 和 CWM 元 模型 本 身 都 可 以 充分 利 
用 XMI 的 灵活 性 和 强大 性 。CWM 元 模型 通过 XMI DTD 生成 规则 产生 一 个 标准 的 DTD, 
而 数据 仓库 元 数据 则 可 以 通过 XMI 文档 生成 规则 编码 为 一 个 XML 文档 。 这 大 大 增加 了 
CWM 的 适用 性 ,任何 能 够 编写 和 解析 XML. 数据 流 的 元 数据 库 或 工具 之 间 只 需 将 自身 的 元 
数据 转换 为 CWM 模型 的 形式 就 可 以 利用 XMI 实现 元 数据 交换 , 即 它们 所 描述 的 数据 
交换 。 


1.5 数据 粒度 


数据 仓库 保存 了 大 量 的 历史 数据 ,为 了 保证 数据 的 存储 效率 和 组 织 清晰 ,数据 仓库 的 数 
据 以 不 同 粒 度 存储 。 

数据 仓库 存在 不 同 的 综合 级 别 ,一 般 称 之 为 “粒度 ”。 粒 度 越 大 ,表示 细节 程度 越 低 ， 
综合 程度 越 高 。 四 种 粒度 级 别 分 别 是 早期 细节 级 、 当 前 细节 级 、 轻 度 综合 级 和 高 度 综合 
级 ,分 别 反 映 不 同 的 需求 。 由 此 可 知 ,数据 仓库 的 数据 生存 周期 , 即 源 数 据 经 过 综合 后 首 
先进 入 当前 细节 级 ,并 根据 具体 需要 进一步 综合 ,从 而 进入 轻 度 综 合 级 乃至 高 度 综 合 级 ， 
老化 的 数据 将 进入 早期 细节 级 。 数 据 仓 库 的 核心 是 在 系统 中 保留 最 有 可 能 被 用 户 使 用 
的 数据 。 


1.6 数据 模型 


数据 模型 是 对 现实 世界 的 一 种 抽象 ,根据 抽象 程度 的 不 同 , 形 成 了 不 同 抽象 层次 上 
的 数据 模型 。 类 似 于 关系 型 数据 库 的 数据 模型 ,数据 仓库 的 数据 模型 也 分 为 三 个 层次 ， 
分 别 是 : 

1. 概念 模型 

概念 模型 是 客观 世界 到 计算 机 系统 的 一 个 中 间 层 次 ,最 常用 的 表示 方法 是 E-RCEntity- 
Relationship, 实 体 -关系 ) 图 。 目 前 ,数据 仓库 一 般 是 建立 在 数据 库 的 基础 之 上 ,所 以 其 概念 
模型 与 一 般 关系 型 数据 库 的 概念 模型 一 致 。 

2. 逻辑 模型 

逻辑 模型 是 数据 的 多 辑 结构 ,如 多 维 模型 ,关系 模型 和 层次 模型 等 。 数 据 仓库 的 逻辑 模 
型 描述 了 数据 仓库 的 主题 的 逻辑 实现 , 即 每 个 主题 对 应 的 模式 定义 。 

3. 物理 模型 

物理 模型 是 多 辑 模型 的 具体 实现 ,如 物理 存 取 方式 、 数 据 存储 结构 数据 存放 位 置 以 及 
存储 分 配 等 。 在 设计 数据 仓库 的 物理 模型 时 ,需要 考虑 一 些 提高 性 能 的 技术 ,如 表 分 区 、 建 
立 索 引 等 。 

目前 ,对 数据 仓库 数据 模型 的 讨论 大 多 集中 在 逻辑 模型 ,其 中 最 常用 的 是 多 维 模型 。 在 
多 维 模型 中 ,涉及 以 下 一 些 基本 概念 , 即 : 

维 是 指 人 们 观察 数据 的 特定 角度 。 例 如 ,企业 常常 关心 不 同 销售 数据 随时 间 变 化 的 情 
况 ,所 以 时 间 就 是 一 个 维度 。 

维 的 层次 是 指 人 们 观察 数据 的 某 个 特定 角度 还 可 以 存在 细节 程度 不 同 的 多 个 描述 , 即 
维 的 层次 。 一 个 维度 往往 有 多 个 层次 。 例 如 描述 日 期 维度 时 ,可 以 有 年 .季度 .月 和 日 等 不 
同 层次 , 则 年 .季度 .月 和 日 就 是 时 间 维度 的 层次 。 

维 成 员 是 指 维 的 一 个 取 值 。 如 果 一 个 维 是 多 层次 的 , 则 该 维度 的 成 员 就 是 在 不 同 层 次 
上 取 值 的 组 合 。 例 如 时 间 维 有 年 .月 和 日 三 个 层次 , 则 分 别 在 三 个 层次 上 各 取 一 个 值 组 合 起 
来 就 得 到 时 间 维 的 一 个 成 员 , 即 “ 某 年 某 月 某 日 ”。 

度量 描述 了 要 分 析 的 数值 ,例如 销售 额 等 。 

粒度 是 指数 据 仓库 所 保存 数据 的 细 化 或 综合 程度 的 级 别 。 细 化 程度 越 高 ,粒度 越 小 ; 
反之 , 细 化 程度 越 低 , 粒 度 越 大 。 


1.7 ETE 


原来 业务 系统 的 数据 经 过 提取 、 转 换 并 加 载 到 数据 仓库 中 心 存储 库 的 过 程 称 为 ETL 
(Extract, Transform and Load) 过 程 ,制定 这 一 过 程 的 策略 称 之 为 ETL 策略 ,而 完成 ETL 
过 程 的 工具 则 是 ETL 工具 。 相 对 于 数据 仓库 的 表 而 言 ,业务 系统 数据 库 中 的 表 称 为 源 表 ， 
业务 系统 数据 库 称 为 源 数据 库 , 数 据 仓库 中 所 有 的 数据 都 来 自 于 业务 系统 数据 库 。 在 构建 
数据 仓库 过 程 中 ,ETL 的 实施 是 一 项 烦琐 、 宛 长 而 艰巨 的 任务 ,因为 它 关 系 到 数据 仓库 的 数 
据 质量 问题 ,如 果 导 入 的 数据 漏洞 百出 ,对 决策 者 而 言 无 疑 是 避 耗 。 
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1.7.1 主要 流程 


随 着 应 用 和 系统 环境 的 不 同 ,数据 的 抽取 、 转 换 和 加 载 具 有 不 同 的 特点 。 一 般 地 ,ETL 
主要 过 程 如 图 1.10 所 示 。 


临时 存储 区 


— 


Æ 1.10 ETL 主要 过 程 


(1) 预 处 理 是 正式 开始 作业 之 前 的 准备 工作 ,包括 清空 工作 区 、 检 查 过 渡 / 准 备 区 。 如 
果 需 要 直接 访问 操作 型 数据 源 时 ,要 检查 远程 数据 库 服 务 器 状态 ,并 核对 目标 区 数据 加 载 状 
态 , 以 核算 出 加 载 作 业 的 参数 ,如 加 载 数据 的 时 间 间 隔 和 范围 (是 24 小 时 的 数据 ,还 是 前 3 
天 的 数据 ) 。 

(2) 启动 数据 加 载 的 批 作业 。 

O 因为 维 表 有 事实 表 所 参照 的 主键 ,所 以 需要 先 完成 对 维 表 的 加 载 ,生成 维 表 主键 ， 
并 作为 以 后 加 载 事实 表 所 需 的 外 键 。 在 加 载 维 表 时 ,有 时 需要 处 理 好 缓慢 变化 的 维 ,并 可 能 
涉及 版 本 号 的 处 理 问 题 。 

(4) 加 载 事实 表 。 这 中 间 也 涉及 键 查找 的 问题 , 即 从 有 关 维 表 中 找到 相应 的 主键 ,并 以 
此 作为 事实 表 的 外 键 。 

(5) 事实 表 加 载 完 成 后 ,再 对 实体 化 立方 体 进行 刷新 ,以 保障 实体 化 立方 体 与 其 基础 数 
据 同步 。 

(6) 设计 具有 完善 的 出 错 处 理 机 制 和 作业 控制 日 志 系统 ,以 监测 和 协调 整个 加 载 过 程 。 

具体 的 ETL 处 理 流 程 如 图 1. 11 所 示 。 


1.7.2 数据 抽取 


数据 抽取 是 ETL 的 首要 任务 ,解决 的 主要 问题 是 确定 需要 抽取 的 数据 ,并 采用 适当 的 
抽取 方式 。 

源 数据 进入 数据 仓库 是 通过 数据 抽取 完成 的 ,从 一 个 或 多 个 源 数据 库 中 通过 记录 选取 
进行 数据 复制 的 过 程 。 抽 取 过 程 是 将 记录 写 入 ODS 或 者 临时 区 (staging area) 以 备 进 一 步 
处 理 。 

数据 抽取 的 主要 功能 如 下 : 

(1) 数据 提取 : 主要 是 确定 要 导入 数据 仓库 中 的 数据 。 

(2) 数据 清洁 : 检查 数据 源 中 存在 矛盾 的 数据 ,按照 用 户 确 认 的 清洁 规则 对 数据 进行 
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图 1.11 ETL 处 理 流程 


修改 。 

(3) 数据 转换 : 数据 转换 主要 是 将 数据 源 的 数据 转换 成 数据 仓库 要 求 的 格式 ,其 中 包 
括 数 据 格式 的 转换 ,例如 将 数据 源 中 的 日 期 字段 转换 成 数据 仓库 要 求 的 字符 形式 ; 数据 内 
容 的 转换 主要 是 将 同一 含义 的 字段 用 统一 的 形式 表达 ; 数据 模式 的 转换 ,由 于 数据 仓库 系 
统 和 业务 系统 面向 的 数据 操作 不 同 ,所 以 在 数据 模式 上 也 存在 不 同 , 例 如 电信 业务 的 出 账 表 
的 主键 包括 用 户 标识 、 费 用 项 ,但 是 数据 仓库 用 户主 题 中 用 户 账 务 信息 采用 用 户 标识 作 主 
键 ,将 不 同 费用 项 的 费用 作为 字段 ,这 样 就 需要 在 数据 抽取 时 进行 不 同 数据 模式 间 的 转换 。 

(4) 生成 衍生 数据 : 由 于 数据 仓库 保存 了 大 量 的 历史 数据 ,同时 要 保证 查询 的 效率 , 需 
要 对 用 户 经 常 进行 的 查询 进行 预 处 理 操作 ,以 提高 查询 效率 ,生成 衍生 数据 。 衍 生 数据 既 包 
括 某 些 数值 数据 的 运算 ,如 平均 值 \ 汇 总 等 ,也 包括 某 些 分 类 字段 的 生成 ,例如 对 用 户 费 用 的 
分 档 信 息 等 。 

数据 抽取 的 重要 组 成 部 分 是 变化 数据 捕获 (Change Data Capture,CDC)。 实 现 CDC 的 
方法 包括 时 间 戳 . 读 取 RDBMS 系统 的 日 志文 件 、 使 用 源 系统 中 的 触发 器 或 者 自行 开发 
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CDC 程序 检查 日 志文 件 等 。 使 用 时 间 戳 是 最 简单 也 是 相当 普遍 的 方法 ,前 提 是 所 有 的 源 表 
都 有 时 间 截 。 例 如 超市 的 业务 系统 数据 库 中 几乎 每 个 表 都 有 “插入 记录 日 期 ”和 "更 新 记录 
日 期 ”两 个 字段 ,这 是 规范 建 库 的 一 个 基本 标准 。 

多 数 情 况 下 ,数据 源 系 统 与 数据 仓库 并 不 处 于 同一 个 数据 服务 器 ,它们 往往 是 独立 的 ， 
并 处 于 远程 系统 中 。 数 据 抽 取 往 往 是 以 远程 分布 式 的 方式 进行 ,并 涉及 各 种 各 样 的 方法 和 
手段 ,主要 包括 : 

(1) 应 用 SQL Plus 提取 到 文本 文件 ; 

(2) 应 用 OCI 或 Pro C 程序 ,或 者 Oracle UTIL_FILE 提取 到 文本 文件 ; 

(3) 应 用 Oracle Export Utility 实用 程序 提取 到 Oracle Export Files 文件 ; 

(4) 远程 数据 复制 ; 

(5) 信息 流 。 

来 自 操作 型 数据 源 的 数据 如 果 含 有 不 清洁 的 成 分 和 不 规范 的 格式 ,将 对 数据 仓库 的 构 
建 和 维护 ,特别 是 对 OLAP 造成 很 多 问题 和 麻烦 。 因 此 ,必须 在 ETL 中 加 以 解决 ,通常 包 
括 以 下 的 处 理 方法 : 

。 设计 拼写 检查 、 分 类 并 与 标准 值 对 照 检查 

。 处 理 名 字 和 地 址 

* 为 名 字 和 地 址 建立 辅助 表 或 联机 字典 , 据 此 进行 检查 和 修正 

。 数据 转换 函数 以 及 子 程序 库 

保障 数据 清洁 的 原则 是 优先 对 数据 清洁 流程 进行 分 析 和 系统 化 设计 ,针对 数据 的 主要 
问题 和 特征 ,设计 一 系列 数据 对 照 表 和 数据 清洁 程序 库 的 有 效 组 合 ,以 便 应 对 不 断 变化 的 、 
形形色色 的 数据 清洁 问题 。 

通常 数据 清洁 处 理 方法 如 下 : 

(1) 预 处 理 : 对 于 新 的 数据 加 载 文件 (特别 是 新 的 文件 和 数据 集 ) 需 要 进行 预先 诊断 和 
检测 ,不 能 贸然 加 载 。 有 时 需要 临时 编写 判断 小 程序 , 称 作 “小 狗 ”, 它 会 用 鼻子 闻 一 闻 这 个 
庞然大物 (不 知 底细 的 文件 ) ,以 进行 检查 。 

C2) 标准 化 处 理 : 应 用 数据 仓库 内 部 的 标准 字典 ,对 地 名 、 人 名 、 公 司 名 、 产 品名 、 品 类 
名 等 进行 标准 化 处 理 。 

(3) 查 重 : 应 用 各 种 数据 查询 手段 ,避免 引入 重复 数据 。 

(4) 出 错 处 理 和 修正 : 将 出 错 的 记录 和 数据 写 入 到 日 志文 件 ,留待 进一步 处 理 。 

数据 仓库 中 必须 存放 “优质 数据 ", 即 符合 一 致 性 的 ,大 家 公认 或 经 过 验证 是 有 价值 的 ， 
并 符合 元 数据 定义 的 。 通 过 数据 清洁 能 够 检测 出 违反 规则 的 数据 ,这 些 数据 要 么 抛弃 ,要 么 
将 其 转换 成 “清洁 ?数据 ,使 其 符合 规则 ,然后 再 装载 到 数据 仓库 中 。 


1.7.3 数据 转换 


数据 转换 是 将 抽取 出 的 数据 进行 过 滤 、 合 并 、 解 码 和 翻译 等 ,为 数据 仓库 创建 有 效 数 据 
的 过 程 。 一 旦 数据 抽取 完成 , 则 需要 设计 并 确定 转换 规则 应 用 于 已 抽取 的 数据 。 数 据 转换 
需要 理解 业务 侧重 点 C business focus), fA & fK (informational needs) 和 目前 可 用 的 源 
数据 。 


常用 的 转换 规则 包括 : 

CD 字段 级 的 转换 ,主要 是 指数 据 类 型 转换 ,增加 "上下文 ?数据 ,如 时 间 惟 ; 将 数值 型 
的 地 域 编码 替换 成 地 域名 称 , 如 解码 Cdecoding) 等 。 

(2) 清洁 和 净化 ,主要 是 保留 字段 具有 特定 值 或 特定 范围 的 记录 ; 引用 完整 性 检查 ; 去 

(3) 多 数据 源 整合 ,主要 是 字段 映射 (mapping); 代码 变换 (transposing) 即 将 不 同 数据 
源 中 的 数据 值 标准 化 为 数据 仓库 数据 值 。 例 如 将 源 系统 非 英文 编码 转换 为 数据 仓库 英文 编 
码 ; 将 源 系 统 信息 编码 转换 为 数据 仓库 信息 编码 等 ; 合并 (merging) 即 将 两 个 或 更 多 源 系 
统 记 录 合 并 为 一 个 输出 或 “目标 ”记录 ; 派生 (derivation) 即 根据 源 数据 ,利用 数学 公式 产生 
数据 仓库 需要 的 数据 。 例 如 ,由 身份 证 号 码 计算 出 生日 期 ,性别 和 年 龄 等 。 

(4) 聚合 (aggregation) 和 汇总 (summarization) 

虽然 ,数据 转换 较为 烦琐 ,但 却 是 ETL 步骤 中 最 简单 的 。 许 多 ETL 工具 都 提供 了 很 强 
大 的 转换 功能 ,例如 DTS 中 有 复制 字段 转换 .小 写字 符 串 转换 .大写 字符 串 转换 .中 间 字 符 
串 转换 .剪裁 字符 串 转换 .日 期 时 间 字 符 串 转换 . 读 取 文 件 转换 . 写 和 文件 转换 和 ActiveX 脚 
本 转换 等 ,其 中 最 常用 的 是 ActiveX 脚本 转换 ,因为 它 允 许 自 行 利用 VBScript sk JScript 将 
原始 字段 中 的 数据 转换 至 目标 字段 中 的 数据 。 事 实 上 ,如 果 上 述 的 各 种 转换 类 型 都 无 法 满 
足 需求 时 , 则 ActiveX 脚本 转换 将 是 最 终 的 选择 。 


1.7.4 数据 加 载 


数据 加 载 是 将 转换 /清洁 后 的 数据 装载 到 数据 仓库 ,实现 数据 加 载 可 选用 的 实用 程序 和 
工具 很 多 ,例如 最 基本 的 Import, SQL Loader 和 SQL 语言 等 。 为 了 提高 程序 和 过 程 的 复 
用 性 ,编写 和 设计 数据 转换 的 函数 库 / 子 程序 库 是 十 分 必要 的 。 

数据 加 载 包括 维 表 和 事实 表 的 加 载 ,两 者 具有 不 同 的 加 载 策 略 。 

1. 维 表 加 载 策 略 

从 本 质 上 看 ,有 三 种 维 表 加 载 策略 。 每 种 策略 按 不 同 的 方式 处 理 维 表 中 的 变化 以 及 更 
新 维 表 数 据 或 捕获 属性 的 变化 历史 。 这 三 种 加 载 策略 统称 为 慢 速 变化 维 表 策 略 (Slowly 
Changing Dimension,SCD) 。 在 这 三 种 策略 中 ,所 有 输入 数据 都 与 现存 的 数据 进行 比较 ,如 
果 在 自然 键 上 没有 发 现 匹配 的 记录 ,那么 输入 的 记录 就 被 插入 维 表 。 自 然 键 由 维 表 中 的 一 
些 列 ( 数 据 项 ) 组 成 ,唯一 能 确定 维 表 中 一 条 记录 的 代理 键 不 包括 在 这 些 列 中 。 

慢 速 变化 维 表 类 型 1(SCD-1): 在 SCD-1 策略 中 不 需要 保存 历史 记录 。 如 果 一 条 输入 
记录 已 经 在 目标 维 表 中 (根据 自然 键 值 进行 判断 ) , 则 可 根据 输入 记录 的 数据 对 该 记录 进行 
更 新 或 刷新 。 

慢 速 变化 维 表 类 型 2(SCD-2): 有 时 记录 中 有 一 些 重 要 值 ( 即 维 表 中 一 个 或 多 个 列 组 成 
的 自然 键 值 ) 需 要 保留 。 在 SCD-2 策略 中 , 当 相 关 事实 发 生 时 ,就 可 保存 一 条 维 表 记录 。 因 
此 ,如 果 一 条 输入 记录 中 的 某 个 字段 或 列 值 属于 * 重 要 值 ”, 并 且 它 与 目标 表 中 相应 的 列 值 不 
同 , 则 现存 的 记录 就 已 经 “过 期 ”了 , 则 需要 根据 输入 的 记录 ,在 维 表 中 插入 一 条 新 记录 并 指 
派 一 个 新 的 代理 键 值 。 如 果 输 入 记录 中 没有 一 个 重要 值 与 目标 表 中 相应 的 列 有 所 差别 , 则 
对 现存 记录 进行 更 新 ,而 不 是 使 它 过 期 。 
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慢 速 变化 维 表 类 型 3(SCD-3): SCD-3 与 SCD-2 非常 相似 ,用 于 跟踪 重要 值 的 变化 , 然 
而 这 种 策略 不 是 为 每 个 变化 增加 一 条 不 同 的 记录 ,而 是 在 现存 的 记录 上 使 用 不 同 的 列 来 保 
存 当 前 值 和 任意 的 前 个 值 。 当 探查 到 一 个 重要 值 发 生变 化 时 ,该 字段 所 有 以 前 的 列 需 要 
向 下 一 列 移动 ,第 nn 个 以 前 的 值 将 被 丢弃 。 但 是 这 种 策略 并 不 被 很 多 数据 仓库 专家 看 好 ,所 
以 不 建议 使 用 ,因为 这 将 加 大 ETL 的 难度 。 

所 有 的 维 表 加 载 都 遵循 上 述 三 种 策略 ,但 有 两 个 维 表 例 外 , 即 静 态 维 表 和 完全 由 新 数据 
替换 的 维 表 。 静 态 维 表 不 会 变化 ,如 果 它 发 生变 化 , 则 发 生 的 唯一 变化 是 在 其 中 添加 一 条 新 
记录 ,时间 维 表 就 是 一 个 静态 维 表 ; 完全 由 新 数据 蔡 换 的 维 表 通 常 是 小 的 代码 列表 ,它们 不 
需要 代理 键 或 变化 历史 。 但 需要 注意 的 是 表 中 的 任何 重要 值 的 丢失 都 是 不 可 承受 的 。 

2. 事实 表 加 载 策略 

事实 表 的 加 载 是 必需 的 也 是 非常 重要 的 , 它 是 后 续 数 据 分 析 的 基础 。 事 实 表 的 加 载 就 
是 持续 不 断 地 增加 数据 。 事 实 表 的 加 载 不 是 简单 的 数据 拷贝 ,必须 首先 将 每 个 事实 表 与 各 
自 维 表 的 代理 键 相 结合 ,每 个 源 表 (与 事实 表 关 联 的 表 ) 必 须 有 足够 的 信息 用 以 查找 维 表 中 
的 自然 键 ,以 验证 事实 记录 的 完整 性 。 

在 数据 加 载 过 程 中 ,经 常 涉 及 主键 查找 的 问题 。 主 要 是 对 某 些 键 查找 函数 程序 进行 修 
改 补充 ,原因 是 这 些 键 查找 程序 需要 异常 控制 (exception handing) 以 返回 两 种 不 同 的 结果 
(找到 的 键 值 或 空 值 ) 。 

在 加 载 维 表 的 过 程 中 ,在 插入 新 记录 或 修改 已 有 记录 之 前 ,需要 通过 对 某 些 迎 辑 键 进行 
比较 以 确定 当前 记录 是 否 存在 。 在 加 载 事 实 表 的 过 程 中 ,经 常 涉及 更 多 的 主键 查找 处 理 。 
我 们 知道 ,数据 仓库 的 事实 表 含 有 许多 外 键 ,并 以 此 与 有 关 维 表 的 主键 关联 。 在 进行 事实 表 
加 载 时 ,往往 需要 查找 有 关 维 表 的 主键 值 ,并 以 此 确定 事实 表 的 外 键 值 。 常 用 的 方法 是 , 通 
过 从 源 数 据 提 取 的 数据 部 分 的 逻辑 键 与 数据 仓库 内 有 关 维 表 的 逻辑 键 进行 比较 和 匹配 ,如 
果 匹 配 , 则 取 维 表 的 主键 值 ,并 以 此 作为 事实 表 的 外 键 值 加 载 到 事实 表 中 。 例 如 对 客户 维度 
而 言 ,可 以 通过 客户 的 姓名 、 邮 政 编码 与 客户 维度 进行 比较 ,如 果 匹 配 , 则 以 客户 标识 符 键 作 
为 事实 表 的 外 键 。 

逻辑 上 ,实现 ETL 主要 采用 三 种 策略 , 即 远 程 抽取 (remote extraction) 、 推 (push) 和 拉 
C(ulD, Herp ,远程 抽取 是 指 ETL 过 程 是 在 一 个 独立 的 远程 平台 上 进行 ,这 种 方式 受 数据 
源 现 有 系统 或 目标 数据 仓库 的 结构 影响 最 小 ,几乎 不 影响 源 和 目标 系统 的 CPU 和 容量 ,但 
可 能 会 提高 成 本 ,对 网 络 带宽 要 求 较 高 。 推 是 指 在 现 有 系统 环境 中 开展 ETL 过 程 。 当 现 有 
系统 具有 相当 充裕 的 容量 ,而 且 不 会 超出 CPU 处 理 限 度 时 ,经 常 采用 这 种 方法 。 现 有 系统 
是 同 构 的 也 经 常 采 用 这 种 方式 。 拉 是 指 ETL 过 程 在 “仓库 ” 端 进行 , 现 有 异 构 系 统 经 常 采用 
这 种 方式 。 当 “仓库 ” 端 平 台 具 备 必需 的 性 能 和 容量 时 ,将 体现 出 一 定 优势 。 但 是 由 于 “ 仓 
库 ” 的 不 断 增长 ,可 能 需要 制定 长 期 的 策略 。 
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2.1 数据 仓库 设计 


数据 仓库 是 一 个 面向 数据 分 析 处 理 的 数据 环境 ,数据 仓库 的 数据 具有 四 个 基本 特征 , 即 
面向 主题 的 、 集 成 的 .不 可 更 新 的 、 随 时 间 变 化 的 。 这 些 特 点 说 明 数 据 仓 库 从 数据 组 织 到 数 
据 处 理 与 传统 的 数据 库存 在 很 大 区 别 ,数据 仓库 系统 设计 与 数据 库 系 统 设计 的 不 同 主要 表 
现在 以 下 几 个 方面 : 

CD. 面向 的 处 理 类 型 不 同 。 操 作 型 数据 库 系统 的 设计 是 建立 一 个 操作 型 数据 环境 ,其 
设计 方法 是 面向 应 用 的 。 即 一 般 是 从 具体 应 用 出 发 进行 数据 库 设计 ,然后 在 数据 库 上 建立 
这 些 应 用 。 数 据 仓库 系统 的 设计 则 是 面向 分 析 的 ,往往 是 从 最 基本 的 主题 开始 ,不 断 地 扩展 
新 的 主题 ,完善 已 有 的 主题 ,最 终 建立 一 个 面向 主题 的 分 析 型 数据 环境 。 

(2) 面向 的 需求 不 同 。 面 向 应 用 的 数据 库 系统 设计 具有 比较 明确 的 应 用 需求 ,这 是 数 
据 库 系统 设计 和 开发 的 出 发 点 和 基础 。 在 数据 仓库 环境 下 ,不 存在 操作 型 环境 中 固定 的 且 
较 明确 的 物流 数据 处 理 流 和 信息 流 。 数 据 分 析 处 理 的 需求 更 灵活 ,没有 固定 的 模式 ,甚至 
用 户 自己 也 对 所 要 进行 的 分 析 处 理 不 其 明了 ,因而 在 数据 仓库 系统 设计 时 ,很 难 获得 对 用 户 
需求 的 确切 了 解 ,这 就 决定 了 不 可 能 从 用 户 需 求 出 发 进行 数据 仓库 的 设计 。 

(3) 系统 设计 的 目标 不 同 。 设 计数 据 库 系统 时 ,事务 处 理 的 性 能 (主要 表现 为 事务 处 理 
的 响应 时 间 ) 是 系统 设计 的 一 个 主要 目标 ; 而 设计 数据 仓库 系统 时 ,更 关注 的 是 建立 一 个 全 
局 一 致 的 数据 环境 ,作为 企业 决策 支持 系统 的 基础 ,因此 数据 仓库 设计 的 一 个 主要 目标 是 保 
证 数据 的 四 个 基本 特征 ,保证 数据 的 全 局 一 致 性 ,实现 对 企业 数据 的 全 局 管理 和 控制 。 

(4) 数据 来 源 或 系统 的 输入 不 同 。 操 作 型 环境 的 数据 输入 通常 来 源 于 组 织 外 部 ,设计 
操作 型 数据 库 即 是 设计 如 何 通 过 与 外 部 交互 获取 数据 ,如 何 将 获取 的 数据 以 适当 的 方式 进 
行 存储 ,如 何 对 数据 进行 联机 查询 .更 新 等 操作 ,以 及 如 何 保证 数据 的 安全 可 靠 与 正确 有 效 
等 。 而 数据 仓库 的 数据 主要 来 源 于 已 有 系统 内 部 ,设计 数据 仓库 即 是 设计 如 何 从 现 有 的 数 
据 源 中 获取 完整 一 致 的 数据 ,如 何 将 获取 的 数据 进行 转换 、 重 组 和 综合 ,如 何 有 效 地 提高 数 
据 分 析 的 效率 和 准确 性 等 。 

综 上 所 述 ,数据 仓库 的 设计 主要 包括 两 个 方面 一 一 与 操作 型 系统 接口 的 设计 和 数据 仓 
库 本 身 的 设计 。 从 某 种 程度 上 而 言 ,“ 设 计 ” 并 不 能 精确 描述 在 启发 方式 下 构建 数据 仓库 时 
RETHA. 首先, 载 入 一 部 分 数据 , 供 DSS 分 析 员 使 用 和 查看 ; 然后 ,根据 最 终 用 户 的 反 
馈 ,在 数据 仓库 中 修改 、 增 加 一 些 数 据 。 这 种 反馈 循环 贯穿 于 整个 数据 仓库 的 开发 过 程 。 那 
种 认为 在 构建 数据 仓库 时 ,采用 过 去 曾 使 用 的 设计 方法 就 可 以 满足 需求 的 想法 是 错误 的 。 
在 数据 仓库 部 分 载 入 并且 为 DSS 分 析 员 使 用 之 前 ,数据 仓库 的 需求 是 不 可 能 知道 的 。 因 
此 ,设计 数据 仓库 时 不 能 采用 与 设计 传统 的 “需求 驱动 ”系统 同样 的 方法 。 另 一 方面 , 那 种 认 
为 不 预测 需求 是 好 思路 的 想法 也 是 错误 的 。 实 际 上 通常 是 介 于 两 者 之 间 。 

概括 地 ,数据 仓库 的 设计 主要 包括 : 
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。 体系 结构 设计 ; 

。 数据 仓库 模型 设计 ; 
。 数据 装载 接口 设计 ; 
。 数据 仓库 管理 ; 

元 数据 管理 。 

1. 体系 结构 设计 

根据 在 业务 和 信息 调研 中 所 了 解 的 用 户 业 务 环境 和 IT 环境 ,设计 数据 仓库 的 整体 架 
构 ,确定 数据 仓库 的 位 置 、 网 络 需 求 、 用 户 访问 数据 仓库 的 方式 等 。 体 系 结构 设计 是 对 建立 
一 个 数据 仓库 系统 的 总 体 描述 ,从 宏观 和 整体 角度 对 数据 仓库 系统 的 各 组 成 部 分 进行 总 体 
设计 ,并 确定 在 设计 过 程 中 应 遵循 的 总 原则 ,保证 数据 仓库 各 个 部 分 在 开发 过 程 中 能 够 依据 
同样 的 基础 和 标准 ,在 运行 过 程 能 够 相互 协调 配合 。 后 续 的 数据 转换 .应 用 开发 .系统 管理 
等 工作 将 参照 体系 结构 的 设计 和 指导 原则 进行 。 

2. 数据 仓库 模型 设计 

数据 仓库 模型 设计 包括 概念 模型 设计 .逻辑 模型 设计 和 物理 模型 设计 三 部 分 。 首 先进 
行 的 是 概念 模型 设计 ,以 确定 数据 仓库 的 主要 主题 及 其 相互 关系 。 概 念 模型 设计 主要 完成 
以 下 工作 : 

(1) 界定 系统 边界 , 即 进 行 任务 和 环境 评估 、 需 求 收集 和 分 析 , 了 解 用 户 迫 切 需要 解 
决 的 问题 及 解决 这 些 问题 所 需 的 信息 ,需要 对 现 有 数据 库 中 的 数据 有 一 个 完整 而 清晰 的 
认识 。 

(2) 确定 主要 的 主题 域 , 即 确定 系统 所 包含 的 主题 域 ,然后 对 每 一 主题 域 的 公共 码 键 、 
主题 域 之 间 的 联系 、 充 分 代表 主题 的 属性 进行 较 明 确 的 描述 。 数 据 仓 库 中 的 概念 模型 设计 
经 常 采用 E-R 模型 和 面向 对 象 的 分 析 方 法 。 

逻辑 模型 设计 是 按照 企业 的 业务 规则 和 流程 将 各 种 数据 有 机 地 集成 在 一 个 完整 的 逻辑 
数据 模型 中 。 逻 辑 数 据 模型 包括 各 个 业务 实体 ,业务 实体 的 属性 ,以 及 业务 实体 之 间 的 关系 
等 。 通 过 逻辑 设计 ,可 以 对 每 个 主题 的 逻辑 实现 进行 定义 ,并 将 相关 内 容 ( 如 适当 的 粒度 划 
分 、 合 理 的 数据 分 割 . 增 加 的 衍生 字段 .记录 系统 定义 等 ) 记 录 在 数据 仓库 的 元 数据 中 。 

物理 模型 设计 主要 解决 数据 的 存储 结构 .索引 策略 .存储 策略 、 存 储 分 配 优化 等 问题 。 
其 主要 目的 一 是 提高 性 能 ,二 是 更 好 地 管理 存储 数据 。 访 问 频 率 数据 容量 和 存储 介质 配置 
都 会 影响 物理 设计 的 最 终结 果 。 

3. 数据 装载 接口 设计 

数据 装载 接口 即 载 人 程序 ,可 实现 数据 装载 和 数据 综合 功能 。 数 据 装 载 功能 实现 数据 
抽取 、 转 换 、 清 洗 和 集成 ; 数据 综合 功能 实现 将 集成 的 细节 数据 转化 为 不 同 综合 层次 的 
数据 。 

4. 数据 仓库 管理 

数据 仓库 管理 负责 安全 和 权限 管理 。 跟 踪 数 据 更 新 ,数据 质量 检查 ,管理 和 更 新 元 数 
据 , 审 计 和 报告 数据 仓库 的 使 用 和 状态 ,删除 数据 ,复制 ,分 割 和 分 发 数据 ,备份 和 恢复 数据 ， 
存储 管理 。 

5. 元 数据 管理 

元 数据 为 访问 数据 仓库 提供 了 一 个 信息 目录 (information directory) ,该 目录 全 面 地 描 


述 了 数据 仓库 中 有 什么 数据 、 如 何 获 取 以 及 访问 这 些 数据 ,是 数据 仓库 运行 和 维护 的 中 心 ， 
数据 仓库 服务 器 利用 它 存 储 和 更 新 数据 ,用 户 通 过 它 了 解 和 访问 数据 。 元 数据 通常 存储 在 
专用 的 数据 库 中 ,该 数据 库 可 视 为 一 个 “ 黑 盒 ”, 外 部 无 法 知道 这 些 工具 所 用 到 和 产生 的 元 数 
据 是 如 何 存 储 的 。 此 外 ,还 有 一 类 被 称 为 元 数据 知识 库 (metadata repository) 的 工具 ,它们 
独立 于 其 他 工具 ,为 元 数据 提供 一 个 集中 的 存储 空间 ,如 Microsoft 的 Repository、CA 的 
Repository, Ardent 的 MetaStage 和 Sybase 的 WCC 等 。 


2.1.1 设计 方法 


在 操作 型 环境 中 ,业务 过 程 和 规则 比较 规范 且 固 定 。 设 计 人 员 能 够 清晰 地 了 解 应 用 需 
求 和 数据 流程 ,系统 设计 一 般 采 用 系统 开发 生命 周期 (System Development Life Cycle, 
SDLC) 方 法 。 而 在 分 析 型 环境 中 ,DSS 分 析 员 一 般 是 企业 的 中 上 层 管理 人 员 ,他 们 对 决策 
分 析 的 需求 不 能 预先 做 出 规范 说 明 , 只 能 给 设计 人 员 一 个 抽象 .模糊 的 描述 。 这 就 要 求 设 计 
人 员 在 与 用 户 不 断 的 交流 过 程 中 ,将 系统 需求 逐步 明确 和 完善 。 人 们 为 了 突出 这 种 需求 不 
确定 的 开发 过 程 ,将 数据 仓库 的 设计 方法 描述 成 数据 仓库 环境 下 的 系统 开发 生命 周期 方法 
(Cycle Life Development System, CLDS) , CLDS 与 SDLC 相反 。CLDS 是 典型 的 数据 驱 
动 , 而 SDLC 是 典型 的 需求 驱动 ,如 图 2. 1 所 示 。 
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图 2.1 SDLC 方法 与 CLDS 方法 


数据 库 系统 设计 常用 的 SDLC 方法 有 独立 的 收集 需求 和 分 析 需 求 的 阶段 ,SDLC 方法 
开始 于 需求 ,结束 于 代码 。 而 数据 仓库 系统 设计 采用 的 CLDS 方法 没有 这 样 的 独立 阶段 ,而 
是 将 需求 分 析 的 过 程 贯穿 在 整个 设计 过 程 中 ,CLDS 方法 是 开始 于 数据 ,结束 于 需求 。 因 为 
联机 事务 处 理 的 需求 是 较为 固定 的 ,如 商场 的 库存 管理 ,采购 业务 等 都 有 一 定 的 操作 规程 ， 
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所 以 在 一 个 系统 开发 生命 周期 内 ,系统 需求 在 设计 的 前 期 阶段 即 收集 需求 和 分 析 需 求 阶段 
结束 后 就 应 该 确定 ,一 旦 进入 SDLC 方法 的 第 三 步 构建 数据 库 , 如 图 2. 1(a) 所 示 , 系 统 需求 
就 基本 不 变 。 而 CLDS 方法 则 要 求 在 整个 系统 开发 过 程 中 完成 对 系统 需求 的 收集 、 分 析 和 
理解 。 

数据 仓库 的 设计 方法 是 “数据 驱动 ”的 ,其 思路 是 利用 以 前 所 取得 的 工作 成 果 进 行 系统 
设计 。 要 充分 利用 现 有 的 工作 成 果 ,唯一 的 办 法 就 是 能 识别 出 当前 系统 设计 与 系统 设计 已 
完成 工作 的 “共同 性 ”"。 即 在 数据 仓库 系统 设计 前 ,需要 清楚 原 有 的 数据 库 系统 已 经 完成 
什么 ,以 及 它们 对 当前 系统 设计 的 影响 等 。 应 尽 可 能 利用 现 有 的 数据 、 代 码 等 ,而 不 是 什 
么 都 从 头 开始 。 从 源 数据 出 发 分 析 数 据 ,为 新 应 用 (分 析 处 理 ) 所 用 就 是 “数据 驱动 ”的 出 
发 点 。 

“数据 驱动 ”的 系统 设计 不 再 面向 应 用 ,而 是 从 已 有 的 数据 库 系统 出 发 ,按照 分 析 领 域 对 
数据 与 数据 之 间 的 联系 重新 组 织 数据 仓库 的 主题 。 

“数据 驱动 设计 方法 的 核心 是 利用 数据 模型 有 效 地 识别 现 有 数据 库 中 的 数据 和 数据 仓 
库 中 主题 的 “数据 的 共同 性 ”。 


2.1.2 体系 结构 设计 


数据 仓库 建设 是 一 个 不 断 循环 ,反馈 而 使 系统 不 断 扩展 、 完 善 的 过 程 ,这 对 系统 体系 结 
构 设 计 提出 了 很 高 的 要 求 ,要 求 体系 结构 具有 良好 的 可 扩展 性 和 灵活 性 ,能 适应 复杂 多 变 的 
业务 需求 ,不 做 或 少 做 无 效 、 重 复工 作 。 其 次 ,数据 仓库 建设 的 目标 不 是 数据 集成 ,而 是 通过 
数据 集成 为 业务 发 展 提供 前 所 未 有 的 决策 支持 。 因 此 ,在 数据 仓库 体系 结构 设计 中 应 充分 
考虑 到 这 一 点 , 即 结 合 业 务 应 用 的 需求 。 

目前 ,比较 成 熟 的 数据 仓库 体系 结构 主要 有 两 种 , 即 企 业 信息 工厂 (Corporate Information 
Factory,CIF) ,创始 人 是 数据 仓库 之 父 Inmon; 多 维 体系 结构 (Multidimensional Architecture. 
MD) 又 称 总 线 架构 (bus architecture) ,创始 人 是 数据 仓库 领域 中 颇具 实践 经 验 的 Kimball, 

1. 企业 信息 工厂 

企业 信息 工厂 主要 包括 集成 转换 层 (Integrated and Transformation Layer) 、 操 作 数据 
存储 (Operational Data Store. ODS) 、 企 业 中 心 数据 仓库 (Enterprise Data. Warehouse. 
EDW) ,数据 集 市 (Data Mart, DM) 和 探索 仓库 (Exploration Warehouse,EW) 等 部 件 , 它 们 
有 机 地 结合 在 一 起 ,为 企业 提供 信息 服务 。 

集成 转换 层 是 将 来 自 操作 型 源 系统 的 数据 集成 并 转换 到 数据 仓库 中 ,通常 是 由 一 组 程 
序 组 成 ,而 其 他 部 件 如 数据 仓库 和 数据 集 市 等 主要 由 数据 组 成 。 当 业务 数据 来 源 多 .业务 复 
AINT ,集成 转换 层 建 立 一 些 临 时 表 ,为 数据 处 理 提 供 方便 。 此 时 ,集成 转换 层 包括 程 序 和 数 
据 , 也 称 数据 准备 区 。 通 常 地 ,中 等 规模 以 上 的 数据 仓库 系统 都 会 建立 数据 准备 区 。 

ODS 是 建立 在 数据 准备 区 和 数据 仓库 之 间 的 一 个 部 件 ,以 满足 企业 集成 的 、 综 合 的 操 
作 型 处 理 需要 。 例 如 ,提供 尽 可 能 实时 的 、 集 成 的 报表 等 。 一 般 地 ,ODS 用 以 满足 企业 战略 
决策 的 需要 ,为 可 选 部 件 。 

企业 中 心 数据 仓库 是 CIF 的 核心 部 件 , 用 来 保存 整个 企业 的 数据 。 一 般 地 ,企业 中 心 
数据 仓库 用 以 满足 企业 战略 决策 的 需要 ,其 数据 来 自 数据 准备 区 和 ODS。 


数据 集 市 是 为 了 满足 企业 特定 部 门 的 分 析 需 求 而 专门 建立 的 数据 集合 。 数 据 集 市 的 数 
据 来 源 是 企业 中 心 数 据 仓 库 。CIF 的 数据 集 市 一 般 而 言 是 非 规范 化 的 定制 的 和 汇总 的 。 
而 多 维 体系 结构 的 数据 集 市 分 为 两 种 , 即 原子 数据 集 市 和 聚集 数据 集 市 。 一 般 而 言 ,CIF 的 
数据 集 市 相当 于 多 维 体系 架构 中 的 聚集 数据 集 市 。 

探索 仓库 或 数据 挖掘 仓库 的 建立 主要 是 为 了 解决 大 型 查询 ,提高 数据 仓库 的 效率 。 当 
有 探索 或 挖掘 需求 时 ,将 从 数据 仓库 导出 一 部 分 数据 供 其 操作 。 

CIF 的 实现 方式 是 ,首先 进行 企业 的 数据 整合 ,建立 企业 中 心 数据 仓库 即 EDW。 对 于 
各 种 分 析 需 求 再 建立 相应 的 数据 集 市 或 者 探索 仓库 ,其 数据 来 源 于 EDW。CIF 的 数据 流向 
一 般 是 从 源 系 统 到 数据 准备 区 到 操作 数据 存储 到 企业 中 心 数据 仓库 再 到 数据 集 市 。 当 分 析 
人 员 在 数据 仓库 或 数据 集 市 中 获得 分 析 结 论 后 ,将 有 信息 的 回流 。 这 种 信息 回流 有 可 能 是 
物理 数据 的 回流 ,也 可 能 是 直接 改变 业务 部 门 的 决策 。 总 之 ,要 将 分 析 的 结果 应 用 起 来 。 通 
过 这 种 信息 回流 ,CIF 的 不 同 部 件 可 以 不 断 地 相互 调整 ,最 终 获得 平衡 。 

2. 多 维 体系 结构 

多 维 体系 结构 主要 包括 后 台 (back room) 和 前 台 (front room) 两 部 分 。 后 台 也 称 为数 
据 准备 区 ,是 多 维 体系 结构 的 核心 部 件 。 它 是 一 致 性 维度 的 产生 、 保 存 和 分 发 的 场所 。 同 
时 ,代理 键 也 在 后 台 产 生 。 前 台 是 多 维 体系 结构 对 外 的 接口 ,包括 两 种 主要 的 数据 集 市 ,一 
种 是 原子 数据 集 市 , 另 一 种 是 聚集 数据 集 市 。 原 子 数 据 集 市 保存 着 最 低 粒 度 的 细节 数据 , 数 
据 以 星 型 结构 进行 存储 ; 聚集 数据 集 市 的 粒度 通常 比 原子 数据 集 市 高 ,与 原子 数据 集 市 一 
样 , 聚 集 数 据 集 市 也 是 以 星 型 结构 进行 存储 。 前 台 还 包括 像 查询 管理 活动 监控 等 为 了 提高 
数据 仓库 的 性 能 和 质量 的 服务 。 多 维 体系 结构 中 ,首先 在 数据 准备 区 建立 一 致 性 维度 、 建 立 
一 致 性 事实 的 计算 方法 ; 其 次 在 一 致 性 维度 ,一致 性 事实 的 基础 上 逐步 建立 数据 集 市 。 每 
次 增加 数据 集 市 ,都 会 在 数据 准备 区 整合 一 致 性 维度 ,并 将 整合 好 的 一 致 性 维度 同步 更 新 到 
所 有 的 数据 集 市 。 这 样 ,所 建立 的 数据 集 市 合 在 一 起 就 是 一 个 完整 的 数据 仓库 。 

3. 比较 

CIF 对 于 建立 复杂 应 用 ,如 挖掘 仓库 ,探索 仓库 提供 了 更 好 的 支持 。 但 这 种 架构 的 建设 
周期 比较 长 ,成 本 较 高 。MD 中 心 数据 仓库 以 多 维 模 型 保存 ,对 于 特殊 的 非 维 度 型 分 析 应 用 
存在 局 限 性 。 总 体 而 言 ,这 两 种 体系 结构 都 是 不 错 的 选择 ,各 有 优 缺 点 。 一 种 比较 流行 的 做 
法 是 联合 使 用 , 即 建 立 CIF 的 数据 仓库 和 MD 的 数据 集 市 。 

4. 实例 

目前 ,企业 采用 的 典型 的 数据 仓库 体系 结构 分 为 数据 源 、 数 据 的 存储 与 管理 .OLAP 服 
务 器 和 前 端 工具 四 个 层次 ,如 图 2. 2 所 示 。 

COD 数据 源 是 数据 仓库 系统 的 基础 ,是 整个 系统 的 数据 源泉 。 通 常 包括 企业 内 部 信息 
和 外 部 信息 。 内 部 信息 包括 存放 于 RDBMS 中 的 各 种 业务 处 理 数据 和 各 类 文档 数据 ; 外 部 
信息 包括 各 类 法 律 法 规 ,市 场 信息 和 竞争 对 手 信 息 等 等 。 数 据 仓库 可 通过 ODBC、JDBC 和 
OLE-DB 等 多 种 标准 接口 与 这 些 系 统 互 连 。 

(2) 数据 的 存储 与 管理 是 整个 数据 仓库 系统 的 核心 和 关键 。 数 据 仓库 的 组 织 管理 方式 
决定 其 有 别 于 传统 的 数据 库 , 同 时 也 决定 了 其 对 外 部 数据 的 表现 形式 。 数 据 仓 库 针 对 现 有 
各 业务 系统 的 数据 进行 抽取 ,清理 并 有 效 集成 ,按照 主题 进行 组 织 。 数 据 仓 库 的 组 织 形式 按 
照 数据 覆盖 范围 可 以 分 为 企业 级 数据 仓库 和 部 门 级 数据 仓库 (通常 称 为 数据 集 市 ) 。 
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图 2.2 典型 的 数据 仓库 体系 结构 


(3) OLAP 服务 器 对 分 析 需 要 的 数据 进行 有 效 地 集成 ,按照 多 维 模 型 进行 组 织 , 实 现 多 
角度 、 多 层次 的 分 析 , 并 预测 趋势 。 按 其 具体 实现 可 以 分 为 ROLAP(Relational OLAP), 
MOLAP(Multi-Dimensional OLAP) 和 HOLAP(Hybrid OLAP)。ROLAP 的 基本 数据 和 
聚合 数据 均 存 放 在 RDBMS 中 ; MOLAP 的 基本 数据 和 聚合 数据 均 存 放 在 多 维 数据 库 中 ; 
HOLAP 的 基本 数据 存放 在 RDBMS 中 ,聚合 数据 存放 在 多 维 数据 库 中 。 

CD 前 端 工具 主要 包括 各 种 报表 工具 、 查 询 工 具 、 数 据 分 析 工 具 数据 挖掘 工具 以 及 各 
种 基于 数据 仓库 或 数据 集 市 的 应 用 开发 工具 。 其 中 数据 分 析 工 具 主要 针对 OLAP 服务 器 ， 
报表 工具 和 数据 挖掘 工具 主要 针对 数据 仓库 。 


2.1.3 数据 模型 设计 
开始 
数据 仓库 的 数据 模型 设计 是 构建 数据 仓库 的 关键 ,正确 、 
完备 的 数据 模型 是 用 户 业 务 需求 的 体现 ,是 数 仓库 成 功 与 否 最 建立 企业 模型 
重要 的 技术 因素 。 | 
由 于 数据 仓库 自身 的 特点 ,其 数据 模型 的 设计 过 程 和 传统 设计 数据 他 
操作 型 数据 库 数 据 模型 的 设计 有 很 多 不 同 ,数据 仓库 的 数据 模 库 概念 模型 


型 设计 过 程 如 图 2. 3 所 示 。 | 
设计 的 不 同 阶段 处 理 的 主要 问题 可 概括 如 下 : 人 -一 
(1) 企业 模型 : 企业 模型 的 建立 是 数据 仓库 数据 模型 设计 | 

的 基础 ,提高 了 模型 的 可 扩展 性 。 


(2) 概念 模型 : 完成 数据 仓库 主题 的 确定 ,同时 确定 主题 1 物 型 模型 设计 


的 范围 

(3) 逻辑 模型 。 确定 数据 仓库 的 数据 模式 ,主要 关注 大 数 

据 量 数据 的 存储 策略 以 及 数据 仓库 的 处 理性 能 pem 
(4) 物理 模型 : 使 用 具体 的 DBMS 功能 ,进一步 解决 数据 auus 


仓库 的 性 能 。 

1. 概念 模型 设计 

数据 仓库 的 概念 模型 描述 了 从 客观 世界 到 主观 认识 的 映射 。 通 过 概念 模型 设计 ,可 以 
确定 数据 仓库 的 主要 主题 及 其 相互 关系 , 它 主要 是 依据 建立 的 企业 模型 确定 数据 仓库 的 各 
个 主题 ,主题 来 源 于 企业 模型 中 的 实体 ,主题 的 确定 需要 由 最 终 用 户 和 数据 仓库 设计 人 员 共 
同 完成 。 数 据 仓 库 的 主题 确定 后 ,就 可 以 根据 主题 将 企业 模型 划分 成 不 同 的 部 分 ,同时 将 这 
种 划分 映射 到 相应 的 数据 库 模 型 ,作为 下 一 步 逻 辑 模型 设计 的 基础 。 

概念 模型 设计 的 主要 步骤 是 : 

(1) 确定 主题 

(2) 划 定 主题 边界 

概念 模型 设计 是 在 原 有 的 业务 数据 库 的 基础 上 建立 一 个 较为 稳固 的 概念 模型 。 因 为 数 
据 仓库 是 对 现 有 数据 库 系 统 的 数据 进行 集成 和 重组 而 形成 的 数据 集合 ,所 以 数据 仓库 的 概 
念 模型 设计 ,首先 要 对 现 有 数据 库 系 统 进 行 分 析 和 理解 ,了 解 现 有 数据 库 系 统 中 有 什么 、 怎 
样 组 织 以 及 如 何 分 布 等 ,然后 再 考虑 应 该 如 何 建立 数据 仓库 系统 的 概念 模型 。 一 方面 ,通过 
原 有 数据 库 的 设计 文档 以 及 数据 字典 中 的 数据 库 关 系 模式 ,可 以 对 企业 现 有 数据 库 的 内 容 
有 一 个 完整 而 清晰 的 认识 ; 另 一 方面 ,数据 仓库 的 概念 模型 是 面向 整个 企业 的 , 它 为 集成 来 
自 各 个 面向 应 用 的 数据 库 的 数据 提供 统一 的 概念 视图 。 

概念 模型 设计 是 在 较 高 抽象 层次 上 的 设计 ,因此 概念 模型 设计 时 不 用 考虑 具体 技术 条 
件 的 限制 。 

2. 逻辑 模型 设计 

数据 仓库 的 迎 辑 模型 描述 了 数据 仓库 主题 的 逻辑 实现 ,相对 于 关系 数据 库 而 言 即 是 描 
述 每 个 主题 对 应 的 关系 表 中 关系 模式 的 定义 。 

1) 模型 选择 

逻辑 模型 设计 是 数据 仓库 设计 的 重要 步骤 之 一 ,因为 它 能 直接 反映 业务 部 门 的 需求 , 同 
时 对 系统 的 物理 实施 具有 重要 的 指导 作用 。 目 前 ,数据 仓库 中 较 常 用 的 逻辑 模型 是 第 三 范 
式 (Third Normal Form,3NF) 和 多 维 模型 。 以 Inmon 为 代表 的 观点 认为 数据 仓库 建 模 应 
该 采用 基于 传统 的 实体 -关系 ,而 以 Kimball 为 代表 的 观点 则 认为 数据 仓库 应 该 采用 多 维 模 
型 。 通 常 在 多 维 模型 中 以 星 型 模式 (star schema) 最 具 代 表 性 ,所 以 有 的 学 者 把 多 维 模 型 直 
接 称 作 星 型 模式 。 

(1) 第 三 范式 : 实体 -关系 又 称 为 第 三 范式 ,是 大 多 数 传 统 数据 库 系统 的 建 模 方法 。 在 
数据 仓库 的 逻辑 模型 设计 中 采用 第 三 范式 ,具有 非常 严格 的 数学 定义 。 如 果 从 其 表达 的 含 
义 来 看 ,一 个 符合 第 三 范式 的 关系 必须 具备 以 下 三 个 条 件 : 

CD 每 个 属性 的 值 唯一 ,不 具有 多 义 性 ; 

@ 每 个 非 主 属性 必须 完全 依赖 于 整个 主键 ,而 非 主键 的 一 部 分 ; 

@ 每 个 非 主 属性 不 能 依赖 于 其 他 关系 中 的 属性 ,否则 这 一 属性 应 该 归 到 其 他 关系 中 。 
第 三 范式 的 定义 基本 上 是 围绕 主键 与 非 主 属性 之 间 的 关系 给 出 的 。 如 果 只 满足 第 一 个 条 
件 , 则 称 为 第 一 范式 ; 如 果 满 足 前 两 个 条 件 , 则 称 为 第 二 范式 ,以 此 类 推 。 因 此 ,各 级 范式 是 
向 下 兼容 的 。Inmon 提倡 的 第 三 范式 建 模 , 与 操作 型 数据 库 系统 的 第 三 范式 建 模 在 侧重 点 
上 有 些 不 同 。Inmon 的 数据 仓库 建 模 方法 分 为 三 层 , 第 一 层 是 实体 关系 层 , 即 企业 的 业务 数 
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据 模 型 层 , 这 一 层 和 企业 的 操作 型 数据 库 系统 建 模 方法 是 相同 的 ; 第 二 层 是 数据 项 集 层 , 这 
一 层 的 建 模 方法 根据 数据 的 产生 频率 及 访问 频率 等 因素 与 企业 的 操作 型 数据 库 系 统 的 建 模 
方法 产生 了 不 同 ; 第 三 层 物理 层 是 第 二 层 的 具体 实现 。 

(2) 多 维 模型 : 它 是 一 种 面向 用 户 需求 的 、 容 易 理 解 的 ,访问 效率 高 的 设计 方法 。 将 数 
据 仓 库 的 数据 组 织 成 多 维 模型 主要 是 基于 数据 仓库 支持 的 大 部 分 是 OLAP 应 用 ,而 OLAP 
要 求 数据 按照 多 维 模型 的 形式 组 织 , 以 支持 OLAP 的 钻 取 、 切 片 和 旋转 等 操作 。 同 时 多 维 
模型 与 其 他 的 数据 组 织 形式 相 比 ,对 数据 进行 了 大 量 的 预 汇总 操作 以 提高 数据 的 查询 速度 ， 
这 对 于 既 要 处 理 大 量 数据 同时 又 要 保证 用 户 查 询 效 率 的 数据 仓库 系统 更 为 适用 。 另 外 ,以 
多 维 模型 的 形式 组 织 数据 也 符合 用 户 的 查询 习惯 。 

多 维 模型 中 数据 是 按照 多 维 形 式 组 织 的 , 维 是 用 户 观察 数据 的 角度 ,如 时 间 、 地 域 等 。 
以 用 户 的 一 次 通话 为 例 , 其 中 包括 了 时 间 、 话 务 类 型 .通达 地 市 等 多 个 观察 的 维度 。 维 是 有 
层次 的 ,如 时 间 维 可 以 按照 "年 .月 .日 ?的 层次 划分 ,维度 的 不 同 层次 决定 了 所 展示 数据 的 详 
细 程 度 。 根 据 维度 的 不 同 特性 可 以 将 维度 分 类 ,不 同 的 分 类 将 影响 维 的 实现 方式 。 

根据 维度 层次 结构 的 特点 ,可 以 将 维 划分 为 : 

CD 均衡 的 层次 结构 。 在 均衡 的 层次 结构 中 ,每 个 层次 的 所 有 分 支 都 降 至 同一 级 别 , 而 
且 每 个 成 员 的 逻辑 父 代 是 上 一 级 成 员 。 例 如 ,移动 业务 中 的 通话 区 域 维 , 可 以 划分 为 “省 、 地 
市 ,交换 机 ”三 个 层次 ,如 图 2.4 所 示 。 

O 非 均衡 的 层次 结构 。 在 非 均衡 的 层次 结构 中 ,每 个 层次 的 分 支 降 至 不 同 的 级 别 , 但 
是 同一 成 员 的 逻辑 子 代 全 部 位 于 同一 级 别 , 如 图 2. 5 所 示 。 其 中 ,客户 类 型 层次 中 的 两 个 成 
员 个 人 客户 和 集团 客户 分 别 降 至 不 同 的 级 别 。 

O 不 整齐 的 层次 结构 。 在 不 整齐 的 层次 结构 中 ,每 个 层次 的 分 支 降 至 不 同 的 级 别 , 并 
且 同 一 成 员 的 逻辑 子 代位 于 不 同 的 级 别 ,如 图 2. 6 所 示 。 其 中 ,费用 类 型 层次 中 的 成 员 通 话 
费 的 迎 辑 子 代 分 别 降 至 费用 类 型 细 分 和 最 小 费 项 两 个 不 同 的 级 别 。 

根据 维度 生成 方式 的 不 同 , 可 以 将 维 划分 为 : 

CD 业务 实体 。 维 来 源 于 业务 系统 中 的 各 个 业务 实体 ,并 且 是 和 主题 关联 的 实体 ,例如 
客户 .产品 和 销售 渠道 等 。 

© 事实 属性 。 维 也 可 以 来 自 事实 的 属性 ,它们 是 对 事实 的 分 类 ,如 电信 业务 中 通话 行 
为 这 一 事实 中 的 通话 类 型 (长 途 、 本 地 通话 ) 就 是 通话 行为 的 属性 。 一 般 这 样 的 维 在 实体 关 
系 模型 中 表现 为 关联 实体 的 属性 。 

@ 业务 实体 属性 。 这 部 分 维 是 和 主题 关联 的 各 个 业务 实体 的 属性 ,是 对 业务 实体 的 分 
类 ,如 客户 属性 中 的 性 别 、 工 作 性 质 。 

(D 派生 维 。 派 生 维 是 基于 事实 表 中 其 他 维 或 度量 生成 的 逻辑 维 ,如 电信 业务 中 的 付费 
方式 (预付 费 、 后 付费 ) 维 是 通过 套餐 维 生 成 的 。 增 加 派生 维 , 不 会 增加 事实 表 中 的 数据 量 。 
派生 维 的 生成 依赖 于 用 户 的 业务 定义 。 

除了 维 的 概念 外 ,多 维 模型 中 的 另 一 个 重要 概念 是 度量 。 度 量 是 从 现实 系统 中 抽象 出 
来 描述 数据 的 实际 含义 ,如 电信 运营 商 的 用 户 数 、 出 账 费用 等 。 度 量 一 般 都 是 数值 类 型 , 通 
过 使 用 聚集 函数 得 到 。 通 过 度量 可 以 对 所 观察 的 事物 进行 评价 。 


根据 度量 对 数据 集 的 聚集 方式 不 同 , 度 量 可 以 划分 为 : 


SAF EF 


E] E) E] E] E] EJ EJ GJ [E 


| 
| 


图 2.4 均衡 的 维度 层次 结构 
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图 2.5 非 均衡 的 维度 层次 结构 
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2.6 不 整齐 的 维度 层次 结构 


。 分 布 的 : 设 数 据 被 划分 为 n 个 集合 ,函数 在 每 一 部 分 上 计算 得 到 一 个 汇总 值 。 如 果 
将 函数 用 于 个 汇总 值得 到 的 结果 ,与 将 函数 用 于 所 有 数据 得 到 的 结果 一 样 则 该 度 
量 是 分 布 的 。 例 如 ,在 电信 业务 中 通话 费用 这 一 度量 就 是 分 布 的 ,这 种 形式 的 度量 
所 应 用 的 聚集 函数 一 般 是 count() ,sum() 等 。 
函数 的 : 如 果 聚 集 函 数 可 以 由 一 个 具有 M 个 参数 的 函数 表示 , 且 每 个 参数 都 可 以 用 
一 个 分 布 汇总 函数 求 得 , 则 该 度量 是 函数 的 。 如 avg() 可 以 由 sum()/count() 计 算 
得 到 ,其 中 sum() 和 count() 都 是 分 布 汇总 函数 。 月 平均 使 用 次 数 就 是 一 个 函数 的 
度量 。 
整体 的 : 如 果 一 个 聚集 函数 无 法 用 具有 M 个 参数 的 函数 表示 , 则 该 度量 是 整体 的 ， 
如 rand() ,count(distinc 等 ,例如 使 用 业务 的 用 户 数 就 是 一 个 整体 的 度量 。 

不 同 的 维和 度量 是 通过 事实 联接 起 来 的 。 事 实 是 对 某 类 事件 或 某 种 状态 的 记录 ,例如 
一 次 通话 或 者 业务 受理 等 ,事实 一 般 都 包括 若干 度量 提供 对 事件 的 评价 ,例如 通话 这 一 事实 
包括 通话 时 长 ,通话 费用 等 度量 。 也 有 一 部 分 事实 不 包括 任何 度量 ,它们 反映 了 某 类 事件 的 
发 生 , 如 “ 某 人 在 某 天 被 停机 ”。 

Kimball 提倡 的 数据 仓库 的 多 维 模型 ,一般 也 称 为 星 型 模式 ,有 时 也 引入 一 些 雪 花 模 
式 。 星 型 模式 是 为 了 将 数据 分 割 为 执行 起 来 容易 理解 的 格式 而 设计 的 , 它 是 一 种 多 维 的 
数据 关系 ,由 一 个 事实 表 (fact table) 和 一 组 维 表 (dimension table) 组 成 。 每 个 维 表 都 有 一 
个 维 作为 主键 ,该 主键 链接 到 事实 表 , 所 有 这 些 维 组 合成 事实 表 的 主键 。 事 实 表 的 非 主 
属性 称 为 事实 (fact) ,一 般 都 是 数值 或 其 他 可 以 进行 计算 的 数据 ,而 维 大 都 是 时 间 、 地 
域 等 。 

(D 事实 表 : 每 个 数据 仓库 或 数据 集 市 都 包含 一 个 或 多 个 事实 表 。 星 型 模式 或 雪花 模 
式 的 中 心 是 一 个 事实 表 。 通 常 , 事 实 表 包含 大 量 的 行 , 有 时 当 事 实 表 包含 企业 一 年 或 几 年 的 
历史 数据 时 ,可 能 有 数 亿 条 记录 。 事 实 表 的 主要 特点 是 包含 数值 数据 (事实 ) ,而 这 些 数值 数 
据 可 以 汇总 以 提供 有 关 企 业 运 营 历史 的 信息 。 每 个 事实 表 还 包含 一 个 由 多 个 部 分 组 成 的 索 
引 , 该 索引 包含 作为 外 键 的 相关 维 表 的 主键 ,而 维 表 包 含 事实 记录 的 特征 。 事 实 表 不 应 包含 
描述 信息 ,也 不 应 包含 数字 度量 字段 ,以 及 使 事实 与 维 表 中 的 对 应 项 相关 的 索引 字段 之 外 的 
任何 数据 。 

O 维 表 : 包含 描述 事实 表 中 的 事实 记录 的 特征 。 有 些 特 征 提供 描述 性 信息 ,有 些 特征 
用 于 指定 如 何 汇总 事实 表 数 据 以 便 为 分 析 者 提供 有 用 的 信息 。 维 表 包 含有 助 于 汇总 数据 的 
特性 的 层次 结构 。 

数据 仓库 的 负载 主要 有 两 种 : 一 种 是 回答 重复 性 的 问题 , 另 一 种 是 回答 交互 性 的 问题 。 


对 于 以 第 一 种 负载 为 主 的 部 门 数据 集 市 , 当 数据 量 不 大 、 报 表 较 固定 时 可 采用 多 维 模式 ; 对 
于 企业 中 心 数据 仓库 ,考虑 到 系统 的 可 扩展 性 、 投 资 成 本 和 易于 管理 等 诸多 因素 ,可 采用 第 
ZËRA. 

2) 模型 比较 

逻辑 模型 的 设计 既 可 以 采用 星 型 模式 或 雪花 模式 ,也 可 以 采用 第 三 范式 。 

在 数据 库 逻 辑 模型 设计 中 有 一 个 规范 化 的 过 程 ,以 减少 数据 宛 余 。 范 式 是 衡量 数据 库 
规范 化 程度 或 深度 的 一 种 方法 ,具有 非常 严格 的 数学 定义 。 根 据 数据 规范 化 程度 的 不 同 , 由 
低 至 高 分 为 第 一 范式 、 第 二 范式 、 第 三 范式 .Boyce-Codd 范式 、 第 四 范式 和 第 五 范式 。 对 于 
一 般 的 数据 库 系统 而 言 , 只 做 到 第 三 范式 ,如 果 一 个 数据 模型 满足 第 三 范式 ,就 可 以 认为 该 
模型 的 宛 余 度 已 经 很 低 了 。 

在 数据 仓库 逻辑 模型 设计 中 ,采用 第 三 范式 可 以 达到 ， 

(1) 减少 数据 元 余 ,减少 数据 的 存储 要 求 。 

(2) 便于 数据 抽取 。 采 用 第 三 范式 ,减少 了 单 表 中 的 数据 元 余 , 因 此 在 进行 数据 装载 时 
要 比 星 型 模式 或 雪花 模式 使 用 较 少 的 关联 操作 ,数据 的 装载 速度 较 快 ,同时 减少 数据 元 余 也 
降低 了 数据 之 间 的 依赖 关系 ,便于 数据 的 并 行 抽取 。 例 如 电信 企业 数据 仓库 数据 模型 设计 
时 ,如 果 在 欠 费 表 中 加 入 用 户 套 餐 等 元 余 信息 后 ,在 抽取 欠 费 数据 时 必须 首先 等 到 用 户 数 据 
和 欠 费 数据 同时 准备 好 后 才能 开始 抽取 数据 。 

(3) 便于 重用 业务 系统 的 数据 模型 ,提高 开发 速度 。 

满足 第 三 范式 的 数据 模型 在 查询 时 ,特别 是 针对 OLAP 应 用 的 查询 ,需要 进行 的 数据 
关联 操作 较 多 ,查询 效率 低 。 而 星 型 模式 或 雪花 模式 通过 对 事实 表 的 预先 汇总 和 引入 宛 余 
字段 ,提高 了 查询 效率 。 但 是 进行 数据 汇总 的 操作 会 丢失 一 部 分 信息 ,因此 数据 汇总 方式 的 
选择 应 根据 用 户 的 查询 需求 ,如 果 需 求 发 生变 化 特别 是 需要 增加 新 的 观察 维度 时 , 则 需要 修 
改 模型 ,甚至 有 时 要 重新 装载 数据 。 

数据 仓库 的 数据 组 织 可 以 分 为 历史 细节 级 、 当 前 细节 级 、 轻 度 综合 级 和 高 度 综合 级 四 个 
层次 ,其 中 轻 度 综合 级 和 高 度 综合 级 的 数据 都 根据 用 户 需 求 进行 了 一 定 程度 的 汇总 ,因此 对 
轻 度 综 合 级 和 高 度 综合 级 的 数据 易于 使 用 星 型 模式 或 雪花 模式 ,以 提高 数据 的 访问 速度 。 
而 对 于 当前 细节 级 数据 可 以 采用 满足 第 三 范式 的 数据 模型 以 提供 各 种 细节 信息 。 

采用 多 维 模型 设计 时 需要 注意 的 问题 如 下 : 

(D 事实 表 的 设计 。 事 实 表 主 要 来 自 业务 系统 中 的 操作 记录 ,例如 电信 业务 中 的 通话 、 
缴费 和 出 账 等 ,同时 也 有 一 部 分 事实 表 是 对 主题 状态 的 记录 ,如 用 户 停 开 机 状态 的 记录 。 

在 设计 事实 表 时 ,应 对 事实 表 中 包含 的 度量 进行 分 类 ,如 果 该 度量 是 一 个 整体 度量 , 则 
需要 对 该 度量 生成 不 同 汇总 级 别 的 事实 表 以 保证 数据 的 准确 性 。 例 如 在 通话 行为 中 ,如 果 
有 一 个 度量 是 通话 用 户 数 , 它 是 一 个 整体 度量 ,因此 应 对 该 度量 生成 不 同 汇总 层次 的 事实 
表 。 在 设计 事实 表 时 应 尽量 避免 使 用 整体 度量 。 

此 外 ,还 应 注意 将 具有 相同 维度 的 事实 表 通 过 加 入 多 个 度量 进行 合并 ,以 减少 数据 仓库 
中 表 的 数量 和 数据 宛 余 , 但 是 在 进行 事实 表 合 并 的 同时 应 兼顾 数据 的 抽取 效率 ,因为 合并 事 
实 表 常 会 导致 数据 抽取 时 需 进 行 表 之 间 的 关联 ,例如 如 果 将 用 户 的 欠 费 数据 和 销 账 数据 合 
并 为 同一 个 事实 表 , 则 需要 将 欠 费 数据 和 销 账 数据 按照 用 户 标 识 进行 关联 形成 一 条 记录 后 
装载 到 事实 表 , 这 样 将 影响 数据 的 抽取 效率 ,一般 对 高 度 汇 总 级 的 数据 进行 事实 表 的 合并 。 
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Q 维 表 的 设计 。 维 表 主 要 来 自 于 业务 系统 的 各 个 实体 以 及 实体 的 属性 ,同时 还 有 一 部 
分 是 根据 用 户 需求 生成 的 派生 维 。 

一 般 不 使 用 业务 系统 的 主键 作为 维 表 的 主键 , 维 表 一 般 选 择 无 意义 的 顺序 数字 作为 主 
键 。 这 主要 是 为 了 保证 对 维 表 中 数据 变化 的 处 理 , 同 时 也 增加 了 维度 层次 组 合 的 灵活 性 。 
由 于 业务 系统 都 是 通过 主键 进行 关联 ,因此 增加 新 的 维 表 主 键 会 导致 在 数据 抽取 时 需要 对 
数据 进行 转换 ,影响 抽取 效率 。 同 时 维 表 中 应 保存 业务 系统 中 的 主键 以 标识 业务 系统 同一 
意义 的 数据 。 

一 般 情况 下 ,业务 实体 单独 作为 维 表 ,不 同 实 体 之 间 的 关联 通过 主 、 外 键 实 现 。 对 于 用 
户 定义 的 派生 维 通 常 需 加 入 时 间 字 段 以 保存 用 户 定义 的 变更 。 

3) 逻辑 模型 设计 

数据 仓库 的 逻辑 模型 可 以 认为 是 数据 仓库 开发 者 和 使 用 者 之 间 就 数据 仓库 的 开发 进行 
交流 和 讨论 的 工具 与 平台 ,同时 对 系统 的 物理 实施 具有 重要 的 指导 作用 ,通过 实体 和 关系 勾 
勒 出 整个 企业 的 数据 蓝图 。 

他 辑 模型 设计 主要 包括 : 

CD 分 析 主题 域 。 在 概念 模型 设计 中 ,确定 了 几 个 基本 的 主题 域 。 但 是 ,数据 仓库 的 设 
计 是 一 个 逐步 求 精 的 过 程 。 一 般 是 一 次 一 个 主题 或 一 次 若干 个 主题 逐步 完成 。 所 以 必须 对 
概念 模型 设计 步骤 中 确定 的 几 个 基本 主题 域 进行 分 析 , 选 择 首要 实施 的 主题 域 。 选 择 主题 
域 所 要 考虑 的 是 其 应 足够 大 ,以 构建 一 个 可 应 用 的 系统 ; 它 还 要 足够 小 ,便于 较 快 地 开发 和 

(2) 数据 粒度 层次 划分 。 数 据 仓库 人 逻辑 模型 设计 的 一 个 重要 问题 是 数据 仓库 的 粒度 层 
次 划分 ,其 适当 与 否 直 接 影响 到 数据 仓库 的 数据 量 和 所 适合 的 查询 类 型 。 一 般 需 要 将 数据 
划分 为 详细 数据 , 轻 度 综合 、 高 度 综合 三 级 或 更 多 级 的 粒度 。 粒 度 层次 的 划分 是 由 数据 的 行 
数 决定 的 ,数据 行 数 越 多 ,所 需 存储 空间 越 大 ,粒度 划分 的 级 别 就 越 多 。 

(3) 数据 分 割 。 数 据 分 割 是 提高 数据 仓库 性 能 的 重要 手段 , 它 将 逻辑 上 是 统一 整体 的 
数据 分 割 成 较 小 的 .可 以 独立 管理 的 物理 单元 进行 存储 ,以 便于 重 构 .重组 和 恢复 ,提高 创建 
索引 和 顺序 扫描 的 效率 。 确 定 分 割 策略 主要 是 指 选择 适当 的 数据 分 割 标准 ,一 般 应 考虑 以 
下 因素 : 数据 量 数据 分 析 处 理 的 要 求 、 简 洁 性 以 及 粒度 划分 策略 等 。 其 中 ,数据 量 的 大 小 
是 决定 是 否 进 行 数据 分 割 和 如 何 分 割 的 主要 因素 ; 数据 分 析 处 理 的 要 求 是 选择 数据 分 割 标 
准 的 一 个 主要 依据 ,因为 数据 分 割 与 数据 分 析 处 理 的 对 象 紧密 联系 ,设计 者 还 需 考虑 到 所 选 
择 的 数据 分 割 标 准 应 是 自然 的 ,易于 实施 的 ,同时 也 应 考虑 到 数据 分 割 标准 与 粒度 层次 划分 
是 相 适 应 的 。 

(4) 关系 模式 定义 。 数 据 仓库 的 每 个 主题 都 是 由 多 个 表 实 现 的 ,这 些 表 之 间 以 主题 的 
公共 码 键 关联 在 一 起 ,形成 一 个 完整 的 主题 。 在 概念 模型 设计 时 ,确定 了 数据 仓库 的 基本 主 
题 , 并 对 每 个 主题 的 公共 码 键 和 基本 内 容 等 进行 描述 , 即 对 选 定 的 当前 实施 的 主题 进行 模式 
划分 ,形成 多 个 表 , 并 定义 各 个 表 的 关系 模式 。 

4) 数据 粒度 

数据 粒度 是 指数 据 仓库 中 保存 数据 的 细 化 或 综合 程度 的 级 别 。 细 化 程度 越 高 ,粒度 越 
小 ; 反之 , 细 化 程度 越 低 ,粒度 越 大 。 数 据 粒度 的 确定 对 于 数据 仓库 数据 模型 的 设计 非常 重 
要 ,主要 原因 在 于 : 


(1) 数据 仓库 保存 业务 系统 的 历史 数据 , 随 着 时 间 的 推移 ,数据 不 断 增 加 ,数据 仓库 保 
存 了 大 量 数据 。 在 有 限 的 直接 存储 设备 上 保存 这 些 信 息 ,同时 又 能 够 较 快 地 响应 用 户 查询 ， 
如 果 仅 保存 细节 数据 ,将 减少 数据 的 在 线 保 留 周期 ,而 且 数据 查询 的 效率 也 会 降低 。 
(2) 用 户 的 分 析 型 操作 大 部 分 是 针对 汇总 信息 的 查询 和 数据 趋势 的 观察 ,如 果 仅 保存 
细节 数据 , 则 完成 分 析 型 操作 时 需要 遍历 大 量 数据 ,对 系统 的 软 硬 件 要 求 都 很 高 。 
实际 上 ,数据 仓库 的 数据 是 按照 不 同 粒度 保存 的 。 确 定数 据 粒度 旨 在 延长 有 效 数 据 的 
在 线 保 存 时 间 ,提高 查询 效率 。 
确定 数据 粒度 时 ,需要 考虑 以 下 问题 : 
COD 确定 是 否 使 用 多 重 粒度 。 
单一 粒度 和 多 重 粒 度 的 主要 区 别 是 在 数据 的 宛 余 存 储 , 而 不 是 指 是 否 对 数据 进行 汇总 ， 
单一 粒度 和 多 重 粒 度 都 存在 汇总 数据 。 单 一 粒度 是 指 在 数据 进入 数据 仓库 时 先 保存 为 细节 
数据 , 当 数据 的 保留 周期 到 期 时 ,对 细节 数据 进行 汇总 形成 综合 数据 ,同时 将 细节 数据 导出 
到 其 他 慢 速 存储 设备 上 ,单一 粒度 中 细节 数据 和 汇总 数据 之 间 逻 辑 上 没有 重生 ; 多 重 粒度 
是 指数 据 在 进入 数据 仓库 时 ,同时 以 细节 数据 和 汇总 数据 存在 , 当 数 据 的 保留 周期 到 期 时 ， 
将 细节 数据 导出 。 多 重 粒 度 中 细节 数据 和 汇总 数据 有 一 部 分 是 重生 的 。 对 于 细节 数据 量 较 
大 的 数据 仓库 而 言 ,如 果 以 单一 粒度 存储 ,对 近期 数据 的 查询 效率 较 低 。 因 此 ,对 这 类 数据 
仓库 建议 采用 多 重 粒度 存储 。 
确定 是 否 需 要 使 用 多 重 粒度 ,需要 对 数据 仓库 保存 的 数据 量 进行 估算 ,W. H. Inmon 给 
出 了 数据 量 估计 的 计算 公式 。 
对 每 个 已 知 表 i 计算 : 
。 估算 一 行 所 占 字 节 数 大 小 的 最 大 值 L; 和 最 小 值 /;。 
* 统计 一 年 内 可 能 出 现 的 数据 行 数 的 最 大 值 M; 和 最 小 值 mm;。 
。 统计 五 年 内 可 能 出 现 的 数据 行 数 的 最 大 值 N; 和 最 小 值 n; o 
。 计算 每 个 表 键 码 的 字 节 数 K;。 
一 年 内 数据 量 估计 为 : 
最 大 值 = 910, +K) XM, 
最 小 值 = D +K) Xm 
五 年 内 数据 量 估计 为 ， 
最 大 值 = >) (Li 十 Ki) X Ni 
最 小 值 = Su --KOoxm 
根据 估算 的 数据 量 ,参照 表 2. 1 所 示 的 对 照 表 ,确定 是 否 使 用 多 重 粒度 。 
表 2.1 不 同 数据 量 级 与 数据 粒度 的 对 应 关系 


1 年 内 数据 量 / 行 5 年 内 数据 量 / 行 数据 粒度 策略 
10000 100000 设计 简单 
100000 1000000 采用 单一 粒度 
1000000 10000000 最 好 采用 多 重 数据 粒度 
10000000 20000000 必须 采用 多 重 数据 粒度 
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原理 及 应 用 


除了 数据 量 外 ,是 否 使 用 多 重 粒度 还 应 考虑 细节 数据 的 保留 周期 。 如 果 细 节 数 据 的 保 
留 周 期 较 长 ,可 考虑 使 用 多 重 粒度 以 保证 数据 的 查询 效率 。 值 得 注意 的 是 不 同行 业 \ 不 同 用 
户 的 需求 可 能 导致 不 同 的 细节 数据 保留 周期 。 

(2) 确定 粒度 级 别 。 确 定 粒度 级 别 是 指 确定 数据 仓库 中 汇总 数据 的 汇总 程度 ,数据 越 
详细 ,数据 粒度 越 低 。 如 果 数 据 汇 总 程度 较 低 , 则 需要 大 量 的 资源 处 理 数据 ; 如 果 数 据 汇总 
程度 较 高 , 则 会 降低 查询 的 灵活 性 。 

如 前 所 述 ,数据 仓库 的 数据 组 织 层次 分 成 历史 细节 级 、 当 前 细节 级 、 轻 度 综合 级 和 高 度 
综合 级 。 一 般 而 言 ,历史 细节 级 和 当前 细节 级 保存 的 都 是 最 低 粒 度 的 数据 。 对 粒度 级 别 的 
选择 主要 针对 轻 度 综合 级 和 高 度 综合 级 而 言 ,以 便 大 部 分 查询 可 以 在 轻 度 综合 级 或 高 度 综 
合 级 完成 。 

确定 粒度 级 别 ,需要 对 用 户 需求 和 实际 存储 设备 容量 综合 考虑 。 众 所 周知 ,数据 仓库 的 
开发 是 一 个 反复 的 过 程 ,因此 数据 粒度 级 别 也 需要 和 最 终 用 户 反复 交流 确定 。 如 果 用 户 对 
最 终 展示 数据 要 求 更 详细 则 要 降低 粒度 ,反之 如 果 用 户 对 轻 度 综合 数据 的 查询 大 部 分 是 数 
据 汇 总 操作 ,可 以 适当 提高 粒度 级 别 , 以 提高 用 户 查 询 响应 速度 。 

确定 粒度 级 别 时 需要 注意 的 问题 是 : 

。 对 数据 进行 汇总 时 一 般 应 保留 主题 对 应 的 公共 键 码 ,同一 主题 下 的 数据 是 通过 主题 

的 公共 键 码 关联 的 。 

。 选择 粒度 级 别 时 ,考察 汇总 后 生成 的 某 些 衍 生字 段 的 汇总 方式 。 例 如 在 产品 主题 中 
对 一 天 中 产品 的 使 用 情况 进行 汇总 ,可 以 得 到 每 天 不 同 产品 使 用 的 用 户 数 ,但 是 用 
户 数 对 时 间 而 言 不 存在 有 规律 的 汇总 方式 (或 者 说 是 整体 的 ) ,对 这 种 衍生 字段 必须 
提供 多 个 不 同 粒度 的 汇总 数据 。 

(3) 选择 数据 汇总 方式 。 在 确定 数据 粒度 时 要 选择 数据 汇总 方式 ,可 供 选 用 的 数据 汇 
总 方式 主要 包括 : 

CD 按 维 汇总 。 由 上 述 的 多 维 模型 可 知 , 维 是 用 户 观察 数据 的 角度 ,对 应 关系 模型 而 言 
就 是 表 中 的 某 个 字段 。 维 是 有 层次 的 , 按 维 汇总 是 指 选取 一 个 维度 ,将 数据 按照 维 的 不 同 层 
次 进行 汇总 ,这 是 最 常用 的 数据 汇总 方式 。 例 如 电信 业务 的 通话 详 单数 据 中 可 以 按时 间 维 
进行 汇总 ,从 而 得 到 某 天 某 用 户 的 通话 总 次 数 、 总 时 长 ; 再 对 一 个 月 内 的 用 户 通话 进行 汇 
总 ,从 而 得 到 一 个 月 内 一 个 用 户 的 通话 总 次 数 、 总 时 长 ,进而 再 汇总 到 年 。 时 间 维 是 经 常用 
来 进行 汇总 的 一 个 维度 。 

按 维 汇总 时 ,还 可 以 考虑 用 户 观 察 数据 的 其 他 角度 ,加 入 其 他 维 。 但 是 如 果 维 度 过 
多 ,将 会 影响 数据 的 汇总 效果 。 此 时 ,可 同时 进行 模式 转换 的 汇总 。 例 如 ,电信 业务 话 单 
的 通话 级 别 维 标志 该 条 话 单 是 本 地 还 是 长 途 通话 ,采用 按照 时 间 维 的 不 同 层次 进行 数据 
汇总 ,如 果 加 入 的 维 很 多 ,可 以 删除 通话 级 别 维 ,加 入 本 地 通话 次 数 、 长 途 通话 次 数字 段 。 

O 提取 数据 子 集 。 提 取 数 据 子 集 是 根据 用 户 的 分 析 需 求 , 因 为 用 户 可 能 只 对 一 个 数据 
集合 中 某 个 数据 子 集 感 兴趣 ,因此 可 以 通过 数据 过 滤 , 只 保留 部 分 数据 供用 户 查询 和 分 析 ， 
从 而 降低 存 取 的 数据 量 。 例 如 ,电信 业务 话 单 中 ,用 户 只 对 入 网 一 个 月 以 内 的 用 户 通话 数据 
感 兴趣 ,可 以 提取 这 部 分 细节 数据 供用 户 分 析 使 用 ,其 他 数据 通过 汇总 保存 在 较 高 粒度 
级 别 。 


@ 变更 数据 模型 。 通 过 改变 数据 模型 对 数据 进行 汇总 ,将 某 些 分 类 信息 转换 成 字段 存 
储 。 例 如 电信 用 户 账单 中 保存 的 是 每 个 月 每 个 用 户 在 不 同 费 项 上 发 生 的 费用 ,因此 该 表 的 
主键 是 月 份 , 用 户 标识 和 费 项 类 型 ,这样 数 据 行 数 较 多 ,可 以 通过 改变 数据 模型 , 即 删除 费 项 
类 型 ,加 入 不 同 费 项 类 型 的 费用 字段 ,这 样 表 的 主键 是 月 份 和 用 户 标识 ,数据 行 数 将 明显 减少 。 

CD 建立 广义 索引 。 广 义 索引 是 指 对 数据 集合 中 的 数据 特征 进行 统计 ,这 样 用 户 仅 需 要 
查看 统计 结果 就 可 以 了 解数 据 的 大 致 情况 ,统计 方法 包括 最 大 最 小 值 .数据 平均 值 和 排序 
等 。 例 如 针对 电信 业务 的 欠 费 ,可 以 建立 本 月 欠 费 前 100 名 的 用 户 以 便 查询 。 

建立 广义 索引 是 基于 用 户 的 查询 需求 ,通过 对 用 户 经 常 需要 回答 问题 的 了 解 ,可 以 为 用 
户 建立 相应 的 广义 索引 ,提高 查询 效率 。 

数据 仓库 中 ,数据 粒度 之 所 以 重要 ,是 因为 它 深 深 地 影响 数据 仓库 数据 量 的 大 小 ,以 及 
数据 仓库 所 能 回答 的 查询 类 型 。 实 际 中 ,我 们 需要 在 数据 仓库 的 数据 量 大 小 和 查询 的 详细 
程度 之 间 进 行 权衡 。 

图 2.7 所 示 为 两 个 粒度 不 同 的 数据 仓库 ,图 的 左 侧 是 低 粒 度 的 数据 仓库 ,每 次 通话 都 被 
详细 记录 下 来 ,到 月 底 每 个 客户 平均 有 200 条 记录 (当月 每 个 电话 都 记录 一 次 ), 因 此 共和 需 
40000 个 字 节 ; 图 的 右 侧 是 高 粒度 的 数据 仓库 ,数据 代表 每 个 客户 一 个 月 的 综合 信息 ,每 个 
客户 一 个 月 只 有 一 条 记录 ,这 样 的 记录 大 约 只 需 200 个 字 节 。 当 提高 数据 粒度 级 别 时 ,数据 
仓库 所 能 回答 查询 的 能 力 会 随 之 降低 。 换 言 之 ,在 一 个 很 低 的 粒度 级 别 上 可 以 回答 任何 问 
题 ,但 在 高 粒度 级 别 上 所 能 回答 的 问题 是 有 限 的 。 


低 粒度 级 每 月 约 40 000: 约 200 字 节 
每 月 约 200 条 记录 每 月 1 条 记录 


例如 ,一 个 客户 一 个 月 人。 了 例如 ,一 个 客户 一 个 月 
的 通话 详 单 的 细节 数据 [ss | 的 通话 详 单 的 综合 数据 


活动 记录 (日 ) 活动 记录 (月 ) 
日 期 累计 时 长 
时 间 累计 次 数 
2 i 累计 费用 
ERARE i 
通话 时 间 : 


通话 费用 


2.7 不 同 粒度 的 数据 仓库 


针对 图 2.7, 问 “上 星期 某 某 客户 是 否 给 某 某 人 打 了 电话 ?”。 在 低 粒 度 级 别 上 ,这 一 问 
题 是 可 以 回答 的 ,虽然 这 种 回答 将 花费 大 量 开销 去 查询 大 量 的 记录 ,但 查询 结果 是 确定 的 。 
然而 ,在 高 粒度 级 别 上 则 无 法 明确 地 回答 这 一 问题 。 因 为 在 数据 仓库 中 存放 的 只 是 当月 所 
拨打 电话 的 总 次 数 ,无 法 确定 其 中 是 否 有 一 个 电话 是 打 给 某 人 的 。 

但 是 ,DSS( 数 据 仓库 环境 中 常见 ) 很 少 对 单个 事件 进行 查询 ,通常 是 针对 某 种 数据 集合 
进行 处 理 , 这 意味 着 需要 查询 大 量 记录 。 例 如 * 上 个 月 客户 从 某 地 呼出 的 长 途 电话 平均 多 少 
个 ?”, 对 DSS 而 言 这 类 查询 是 很 常见 的 。 当 然 , 它 既 可 以 在 高 粒度 级 别 也 可 以 在 低 粒度 级 
别 上 得 到 回答 。 值 得 注意 的 是 ,不 同 的 粒度 级 别 上 所 使 用 的 资源 具有 相当 大 的 差异 。 在 低 
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粒度 级 别 上 回答 这 一 问题 需要 查询 每 条 记录 ,所 以 需要 大 量 的 资源 。 但 在 高 粒度 级 别 上 , 数 
据 进行 了 很 大 的 压缩 。 

显然 ,如 果 数 据 仓 库 的 存储 空间 很 有 限 ,高 粒度 级 别 要 比 低 粒 度 级 别 的 效率 高 得 多 

高 粒度 级 别 的 数据 仓库 不 仅 占用 的 存储 空间 少 得 多 ,而且 需要 的 索引 项 较 少 。 然 而 不 
仅 要 考虑 数据 量 和 存储 空间 的 问题 ,为 了 访问 海量 数据 处 理 能 力 同样 也 是 一 个 考虑 的 要 素 ， 
所 以 数据 仓库 中 数据 压缩 非常 有 用 。 数 据 压 缩 会 大 大 节省 所 占用 的 存储 空间 ,节省 所 需 的 
索引 项 以 及 处 理 器 资源 。 

综 上 所 述 ,对 于 数据 粒度 的 权衡 ,在 数据 仓库 设计 时 必须 仔细 加 以 考虑 。 

5) 数据 分 割 

数据 粒度 是 通过 数据 汇总 减少 数据 量 ,提高 数据 的 存储 效率 和 查询 效率 。 但 是 这 并 不 
能 解决 同一 粒度 下 由 于 数据 量 过 大 导致 的 数据 查询 效率 较 低 的 问题 。 对 于 这 类 问题 需要 使 
用 数据 分 割 技术 。 数 据 分 割 是 指 将 数据 分 散 到 各 自 的 物理 单元 以 便 能 够 独立 处 理 , 提 高 数 
据 处 理 效率 。 数 据 分 割 后 的 数据 单元 称 为 分 片 ,分 片 数据 没有 交叉 。 

数据 分 割 的 意义 在 于 : 

。 提高 查询 速度 。 通 过 分 割 , 降 低 查 询 的 数据 量 ,同时 将 大 表 分 割 成 若干 小 表 , 易 于 建 
立 表 索引 。 
便于 数据 重组 。 数 据 重 组 是 指 将 数据 按照 一 定 的 规则 进行 新 的 组 合 , 例 如 将 电信 业 
务 话 单 表 分 割 成 每 月 一 张 表 , 用 户 可 能 按照 一 定 的 规则 将 月 份 分 成 几 组 ,这 样 当 查 
询 某 个 组 的 数据 时 只 要 扫描 该 组 中 月 份 对 应 的 表 , 数 据 量 相 对 较 小 。 
便于 表 维 护 。 通 过 数据 分 割 ,降低 单 表 的 数据 量 , 减 轻 数据 维护 的 工作 量 。 
增加 系统 并 行 性 。 数 据 分 割 可 以 增加 数据 抽取 和 查询 的 并 行 性 。 

数据 仓库 中 ,数据 分 割 的 关键 问题 不 是 该 不 该 分 割 而 是 如 何 分 割 。 

数据 分 割 的 主要 工作 是 选择 分 割 的 标准 ,数据 分 割 并 没有 固定 的 标准 ,应 根据 用 户 的 需 
求 和 数据 使 用 方式 共同 确定 数据 分 割 标准 。 

选择 数据 分 割 标准 需要 考虑 的 主要 因素 如 下 : 

CD 数据 分 割 尽量 均匀 。 数 据 分 割 旨 在 将 数据 量 较 大 的 数据 分 割 成 若干 小 的 分 片 以 提 
高 查询 速度 ,因此 选择 数据 分 割 的 标准 应 尽量 保证 数据 在 各 个 分 片 中 的 分 布 较 均 匀 。 例 如 ， 
对 通话 详 单 可 以 按照 时 间 进 行 分 割 ,由 于 每 天 通话 的 次 数 相 差不多 ,对 某 天 通话 进行 查询 时 
可 以 获得 较 高 的 查询 速度 。 

(2) 用 户 的 查询 需求 。 在 选择 数据 分 割 标准 时 应 考虑 用 户 的 查询 需求 ,以 便 将 用 户 的 
大 部 分 查询 在 一 个 分 片 内 完成 ,达到 提高 系统 性 能 的 目的 。 例 如 ,用 户 在 查询 账单 时 经 常 按 
照 用 户 所 属地 市 进行 查询 ,因此 对 账单 按照 用 户 所 属地 域 进行 分 割 ,这样 用 户 大 部 分 查询 可 
以 在 一 个 地 市 的 账单 表 中 完成 。 但 是 ,如 果 数 据 分 割 的 标准 改 为 按 用 户 标识 的 末尾 数字 , 则 
用 户 在 查询 一 个 地 区 的 账单 时 需要 扫描 全 部 分 片 ,这 样 查询 效率 要 比 不 进行 数据 分 割 还 低 。 
因此 ,数据 分 割 一 般 按照 菜 个 维度 的 一 个 层次 的 取 值 ,常用 的 维 是 时 间 、 地 域 和 产品 等 。 

CD 数据 汇总 的 方式 。 数 据 分 割 还 应 考虑 数据 汇总 方式 ,如 前 所 述 ,选择 高 粒度 级 别 可 
减少 数据 量 , 同 时 提高 用 户 查询 的 速度 ,因此 在 对 低 粒度 级 别 数据 进行 分 割 时 还 应 考虑 数据 
汇总 到 高 粒度 时 的 汇总 方式 ,一 般 选 取 的 数据 分 割 标准 是 高 粒度 级 别 中 的 某 个 维度 。 

CD 易于 数据 重 构 。 数 据 重 构 是 数据 分 割 的 反 操作 。 易 于 重 构 是 指 采用 分 割 标准 进行 


分 割 的 数据 易于 组 成 整体 以 满足 用 户 的 查询 需求 。 

数据 分 割 标准 是 严格 地 由 开发 人 员 选 择 的。 然而 ,在 数据 仓库 中 ,日 期 几乎 是 分 割 标准 
中 一 个 必然 的 组 成 部 分 。 

数据 分 割 可 以 在 应 用 层 也 可 以 在 系统 层 。 系 统 层 的 数据 分 割 一 般 是 依赖 DBMS 或 操 
作 系统 提 供 的 功能 ,不 同 的 DBMS 提供 的 数据 分 割 方法 也 不 同 。 而 应 用 层 的 数据 分 割 主要 
是 按照 一 定 的 规则 ,将 数据 分 割 为 若干 逻辑 小 表 。 在 逻辑 模型 设计 时 考虑 的 数据 分 割 是 应 
用 层 的 。 

数据 仓库 开发 人 员 面 临 的 主要 问题 之 一 是 在 系统 层 还 是 在 应 用 层 进行 数据 分 割 。 在 系 
统 层 进行 数据 分 割 在 一 定 程度 上 是 DBMS 和 操作 系统 提供 的 功能 。 在 应 用 层 进行 数据 分 
割 则 是 由 应 用 程序 代码 完成 的 ,这 是 由 开发 者 和 程序 员 严 格 控制 的 。 当 在 应 用 层 进 行 数据 
分 割 时 ,DBMS 和 系统 无 法 知道 一 种 分 割 与 另 一 种 分 割 之 间 的 关系 。 

通常 ,在 应 用 层 进 行 数据 分 割 是 很 有 意义 的 。 最 为 重要 的 是 在 应 用 层 上 每 年 的 数据 可 
以 有 不 同 的 定义 。 不 同年 份 的 数据 定义 ,可 以 相同 也 可 以 不 相同 (例如 不 同 版 本 )。 在 系统 
层 进行 数据 分 割 时 ,DBMS 不 可 避免 地 希望 只 有 一 种 数据 定义 。 假 如 数据 仓库 中 保存 的 数 
据 时 间 较 长 (如 达到 十 年 ) ,并 且 数 据 定义 经 常 变化 ,让 DBMS 或 操作 系统 去 管理 一 个 本 该 
只 有 一 种 数据 定义 的 系统 将 是 毫 无 意义 的 。 

在 应 用 层 进行 数据 分 割 的 男 一 重要 特点 是 它 能 从 一 个 处 理 集 转移 到 另 一 个 处 理 集 而 没 
有 损失 。 在 数据 仓库 环境 下 , 当 负载 和 数据 量 成 为 真正 的 负担 时 ,这 一 特点 则 是 一 种 真正 的 
优势 。 

对 于 数据 分 割 而 言 ,最 严峻 的 挑战 是 能 否 在 分 割 中 加 入 索引 而 不 会 明显 地 影响 其 他 操 
作 。 如 果 一 种 索引 可 随意 加 入 , 则 分 割 是 十 分 理想 的 ; 否则 分 割 还 需 更 精细 些 。 

数据 分 割 的 主要 实现 手段 包括 : 重 构 、 自 由 索引 、 顺 序 扫描 (可 选 的 )、 重 组 ,恢复 和 监 

如 果 数 据 粒 度 和 数据 分 割 设计 得 很 好 ,几乎 所 有 的 数据 仓库 设计 和 实现 的 其 他 问题 都 
将 迎刃而解 ; 否则 难以 真正 实现 。 

6) 数据 划分 

数据 划分 与 数据 分 割 不 同 ,数据 分 割 对 关系 模型 而 言 是 指 对 元 组 的 划分 ,而 数据 划分 是 
指 对 实体 的 属性 按照 一 定 的 分 组 原则 划分 为 不 同 的 属性 组 , 即 数据 模式 的 分 解 。 一 般 地 , 数 
据 划 分 针对 主题 对 应 的 实体 以 及 各 个 与 主题 相关 的 业务 实体 。 

逻辑 模型 设计 中 进行 数据 划分 的 主要 原因 在 于 : 

(1) 从 数据 存储 角度 看 ,实体 中 有 的 实体 属性 更 新 较为 频繁 ,而 其 他 属性 更 新 频率 较 
低 。 由 于 数据 仓库 要 保存 业务 系统 的 变更 历史 ,因而 对 于 每 次 属性 的 变化 ,数据 仓库 一 般 采 
用 新 建 记 录 的 方式 进行 记录 ,这 样 如 果 将 变化 频率 不 同 的 字段 放 在 同一 张 表 中 ,将 浪费 较 多 
的 存储 空间 。 

(2) 从 数据 访问 角度 看 , 表 中 的 部 分 字段 是 经 常 被 访问 的 ,而 其 他 字段 访问 较 少 ,如 果 
将 所 有 字段 存放 在 一 张 表 中 , 则 表 会 增 大 ,影响 数据 访问 速度 。 

基于 上 述 原因 ,在 逻辑 模型 设计 时 需 考 虑 对 表 进 行 划分 ,采用 的 标准 主要 是 按照 字段 变 
化 频率 划分 和 按照 业务 规则 划分 。 

中 按照 字段 变化 频率 划分 。 根 据 字段 的 变化 频率 ,将 表 中 的 字段 分 成 “比较 稳定 ”"“ 有 
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时 变化 "和 ”经 常 变化 三 类 ,相应 地 将 表 拆 分 成 变更 频率 不 同 的 三 个 子 表 , 例 如 电信 用 户 资 
料 表 的 各 字段 按照 稳定 性 划分 如 图 2. 8 所 示 。 


比较 稳定 有 时 变化 经 常 变 化 
用 户 标识 用 户 标识 用 户 标识 
用 户 号 码 用 户 套餐 用 户 状态 
人 网 方式 用 户 信用 额度 费用 余额 
受理 点 
人 网 时 间 


图 2.8 按照 字段 变化 频率 划分 的 实例 


按照 字段 变化 频率 对 表 进 行 划分 后 ,数据 的 存储 空间 占用 较 少 。 

@ 按照 业务 规则 划分 。 按 照 业务 系统 的 业务 规则 将 字段 分 成 共有 数据 和 专 有 数据 。 
W. H. Inmon 提出 了 数据 项 集合 (Data Item Set,DIS) 方 法 对 表 进 行 划分 。DIS 方法 将 数据 
分 成 初始 数据 二 次 数据 .联接 数据 以 及 各 种 数据 类 型 。 其 中 ,初始 数据 是 指 主题 中 仅 出 
现 一 次 的 属性 ,例如 客户 标识 、 入 网 时 间 等 ; 二 次 数据 是 指 关 联 实体 的 属性 ,例如 产品 名 
称 等 ,一 般 是 一 些 描述 字段 ; 联接 数据 是 指 本 主题 与 其 他 实体 间 的 关联 ,例如 客户 和 产品 
等 。 数 据 类 型 是 指 按照 业务 规则 对 实体 进行 分 类 ,可 以 看 成 是 类 的 继承 关系 ,例如 客户 
按照 消费 程度 可 以 分 为 大 客户 .普通 客户 ; 按照 所 处 的 状态 可 以 分 为 停机 客户 、 正 常客 户 
和 离 网 客户 等 。 可 以 对 实体 按照 不 同 的 标准 进行 分 类 ,不 同 分 类 之 间 是 组 合 的 关系 ,如 


图 2.9 所 示 。 

停机 用 户 
初始 数据 客户 标识 
一 一 一 一 一 停机 原因 
客户 标识 停机 时 间 

入 网 时 间 | 站 00 
nien 离 网 用 户 
客户 标识 
离 网 原因 
离 网 时 间 
受理 点 名 称 X EA 

' 受理 点 地 址 

联接 数据 i 客户 标识 
ETT 开机 时 间 


2.9 按照 业务 规则 划分 的 实例 


按照 业务 规则 对 数据 进行 划分 ,有 利于 数据 访问 。 

7) 数据 模式 

数据 仓库 的 数据 模式 包括 星 型 .雪花 型 和 星 型 -雪花 型 ,三 者 都 是 以 事实 表 为 中 心 , 不 同 
之 处 只 是 外 围 维 表 之 间 的 关系 不 同 而 已 。 


40 


(OD RUM 


星 型 模式 的 每 个 维度 都 对 应 一 
表 , 维 的 层次 关系 全 部 通过 维 表 中 的 字段 实现 ， 
所 有 与 某 个 事实 有 关 的 维 , 都 通过 该 维度 对 应 的 


个 唯一 的 维 


维 表 直 接 与 事实 表 关 联 , 所 有 维 表 的 主键 组 合 起 
来 作为 事实 表 的 主键 ,如 图 2. 10 所 示 。 星 型 模 


维 表 7 维 表 4 
式 的 维 表 只 与 事实 表 发 生 关联 , 维 表 与 维 表 之 间 
没有 任何 关联 ,具体 实例 如 图 2. 11 和 图 2. 12 图 2. 10 星 型 模式 示意 图 
所 示 。 
时 间 维 表 
年 
月 
日 
时 间 维 主键 (pk) 
om Key | (pk) 
产品 维 表 销售 记录 地 域 维 表 
产品 类 型 号 时 间 (pk, fk1) 省 代码 
PARATUR o< 地 域 (pk, fk3) 省 名 称 
产品 号 产品 (pk, fK2) 地 市 代码 
产品 描述 销售 数量 ams 地 市 名 称 
产品 维 主键 (pk) 费用 地 域 维 主键 (pk) 
om Key | (pk) om Key 1 (pk) o» Key 1 (pk) 


2.11 星 型 模式 实例 一 


图 2.11 中 ,地 域 维 是 一 个 与 销售 事实 表 关联 的 维度 ,地 域 维 的 层次 是 “省 一 地 市 ”, 这 一 
层次 关系 由 维 表 中 的 省 代码 和 地 市 代码 字段 实现 。 


星 型 模式 的 特点 如 下 : 
(D 维 表 的 非 规范 化 


星 型 模式 中 , 维 表 保 存 该 维度 的 所 有 层次 信息 ,因此 是 非 规范 化 的 ,这 样 减少 了 查询 时 
数据 关联 的 次 数 ,提高 查询 效率 。 但 是 由 于 维 表 保存 所 有 的 层次 信息 ,使 得 维 表 之 间 的 数据 
共用 性 较 差 ,例如 电信 业务 中 基站 和 受理 点 两 个 维 的 层次 关系 分 别 是 “地 市 一 区 县 一 基站 ” 
和 “地 市 一 区 县 一 受理 点 ”, 这 两 个 维度 中 都 有 地 市 和 区 县 ,但 是 由 于 所 有 的 层次 信息 都 保存 
在 各 自 的 维 表 中 ,因此 地 市 和 区 县 分 别 保存 在 两 个 维 表 中 ,同一 信息 之 间 的 统一 是 通过 人 工 


维护 的 。 


© 事实 表 的 非 规范 化 


星 型 模式 中 ,所 有 维 表 都 直接 和 事实 表 关 联 , 因 此 事实 表 也 是 非 规范 化 的 ,这 样 减少 了 
查询 时 数据 关联 的 次 数 ,提高 查询 效率 。 但 是 采用 这 种 方式 也 限制 了 事实 表 中 关联 维 表 
的 数量 ,如 果 关 联 的 维 表 数 量 过 多 将 会 造成 数据 大 量 元 余 , 同 时 对 事实 表 进 行 索引 也 很 
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时 间 账目 地 域 移动 业务 网 络 类 型 
时 间 标识 | ， 账目 标识 地 域 标识 移动 业务 网 络 类 型 标识 
时 间 名 称 | ， 账目 名 称 地 域名 称 移动 业务 网 络 类 型 名 称 
出 账 收 入 分 档 T 
出 账 收入 标识 gassi 
出 账 收入 名 称 不 务 收入 情况 
I 时 间 标识 (FIO E | 
brin zm 
"— 品牌 标识 (FK) 品 
TEM EAE i 移动 业务 网 络 类 型 标识 (FK) NEG 
在 网 时 长 分 档 标识 GNE AGIR) FRE | 
7 - ARCA EK PR— —H 品牌 名 称 
在 网 时 长 分 档 名 称 MEME) 和 品牌 分 类 标识 (FK) 
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图 2.12 星 型 模式 实例 二 
困难 。 


@ 维 表 和 事实 表 之 间 的 关系 

星 型 模式 中 , 维 表 中 的 主键 在 事实 表 中 作为 外 键 存在 ,因此 维 表 和 事实 表 的 关系 是 一 对 
多 或 一 对 一 。 如 果 维 表 和 事实 表 之 间 是 多 对 多 的 关系 时 , 则 不 能 直接 采用 星 型 模式 ,必须 对 
维 表 或 者 事实 表 进 行 处 理 , 如 对 维 表 中 的 成 员 组 合 进行 编码 或 者 在 事实 表 中 加 入 新 的 字段 ， 
但 这 都 要 求 成 员 的 组 合 数量 固定 ,如 果 数 量 不 固定 ,同时 维 表 的 数据 量 又 很 大 的 情况 下 , 星 
型 模式 的 实现 较为 困难 。 

(2) 雪花 型 

事实 上 , 维 表 只 与 事实 表 关联 是 正规 化 的 结果 。 如 果 将 经 常 合并 在 一 起 使 用 的 维度 进 
行 正 规 化 , 即 所 谓 的 雪花 型 模式 ,如 图 2. 13 所 
示 。 同 星 型 模式 相 比 , 雪 花 型 模式 的 最 大 区 别 m es 
是 对 维 表 的 规范 化 , 即 用 不 同 维 表 之 间 的 关联 
实现 维 的 层次 ,具体 实例 如 图 2. 14 所 示 。 da 一 一 和 > 一 一 > 

图 2. 15 所 示 为 对 于 上 述 基站 和 受理 点 的 
例子 使 用 雪花 型 模式 加 以 实现 。 

雪花 型 模式 的 特点 如 下 : 

QD 通过 维 表 的 规范 化 实现 维 表 重用 ,简化 图 2. 13 雪花 型 模式 的 示意 图 
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2.14. 雪花 型 模式 的 实例 
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图 2.15 雪花 型 模式 的 维 表 共 用 


维护 工作 。 但 是 ,查询 时 使 用 雪花 型 模式 要 比 星 型 模式 进行 更 多 的 关联 操作 ,反而 降低 了 查 
询 效率 。 

@ 雪花 型 模式 中 有 些 维 表 并 不 直接 和 事实 表 关联 ,而 是 与 其 他 维 表 关 联 , 特 别 是 对 于 
派生 维和 实体 属性 对 应 的 维 而 言 ,这 样 就 减少 了 事实 表 中 的 一 条 记录 。 因 此 对 于 维度 较 多 
特别 是 派生 维和 实体 属性 较 多 的 情况 下 ,雪花 型 模式 较为 适合 。 但 是 当 按 派生 维和 实体 属 
性 维 进行 查询 时 ,首先 进行 维 表 之 间 的 关联 ,然后 再 与 事实 表 关 联 , 因 此 查询 效率 低 于 星 型 
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原理 及 应 用 


模式 。 
O 使 用 雪花 型 模式 可 以 实现 维 表 和 事实 表 之 间 多 对 多 的 关系 ,例如 在 如 图 2. 14 所 示 的 
实例 中 加 入 销售 人 员 维 度 , 如 果 一 次 销售 可 由 多 名 员工 完成 ,采用 雪花 型 模式 实现 如 图 2. 16 


所 示 。 
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产品 销售 记录 地 域 
" 时 间 (fk2) ; 
"M A (m3) fma n 
产品 描述 FE ad 产品 pe 地 市 名 称 
产品 维 主键 。 (pk) en p 地 市 维 主键 。 (pk) 
om Key_l (pk) H Wm om Key 1 (pk) 
om Key | (pl 
产品 类 型 员工 销售 记录 销售 员工 
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2.16 雪花 型 模式 实现 多 对 多 关系 


综 上 所 述 , 星 型 模式 结构 简单 ,查询 效率 高 。 而 雪花 型 模式 通过 维 表 的 规范 化 ,增加 了 
维 表 的 共用 性 。 实 际 应 用 中 ,经 常 将 星 型 和 雪花 型 模式 综合 起 来 ,即使 用 星 型 模式 的 同时 将 
其 中 的 一 部 分 维 表 规 范 化 ,提取 一 些 公 共 的 维 表 ,这 样 既 保 证 较 高 的 查询 效率 ,又 简化 维 表 
的 维护 。 

(3) 星 型 -雪花 型 

星 型 -雪花 型 模式 是 星 型 和 雪花 型 模式 的 结合 ,打破 星 型 模式 只 有 一 个 事实 表 的 限制 ， 
且 这 些 事实 表 共 享 全 部 或 部 分 维 表 , 如 图 2. 17 Brom 
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事实 表 维 表 2 维 表 3 


2.17 星 型 -雪花 型 模式 示意 图 
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3. 物理 模型 设计 

数据 仓库 的 物理 模型 设计 是 指 在 逻辑 模型 的 基础 上 ,使 用 DBMS 提供 的 功能 对 逻辑 模 
型 进行 物理 上 的 优化 , 即 根据 数据 仓库 的 特点 和 性 能 要 求 , 将 逻辑 模型 转化 为 数据 在 物理 设 
备 上 的 存储 结构 与 存 取 方法 的 过 程 .如 表 结 构 、 索 引 、 数 据 约束 、 数 据 类 型 和 数据 格式 设计 
等 ,由 项 目 经 理 和 数据 仓库 架构 师 共同 完成 。 

物理 模型 设计 主要 包括 : 

1) 数据 存储 结构 设计 

数据 存储 结构 设计 主要 包括 数据 文件 存储 设计 数据 文件 存储 分 配 以 及 数据 缓冲 大 小 
等 ,其 目标 是 提高 系统 的 1/O 能 力 。 

作为 数据 仓库 的 基础 ,DBMS 往往 可 以 向 用 户 提 供 多 种 存储 结构 ,每 种 存储 结构 各 有 
其 独特 的 实现 方式 。 利 用 DBMS 构建 数据 仓库 时 ,应 当 统 一 考虑 数据 存储 时 间 、 存 储 空间 
效率 ,数据 维护 成 本 等 各 方面 因素 ,选用 适当 的 存储 结构 。 

2) 数据 索引 策略 设计 

数据 索引 策略 设计 是 指 根据 数据 的 特征 ,如 数据 的 基数 和 使 用 情况 选择 适当 的 索引 , 例 
如 使 用 Sybase 数据 库 时 ,对 低 基 数 的 数据 可 以 建立 位 图 (bitmap) 索 引 。 

数据 仓库 中 数据 存储 量 十 分 庞大 , 远 远 超 过 一 般 的 数据 库 系 统 。 当 数据 仓库 数据 的 更 
新 频率 不 高 ,往往 采用 定期 导入 新 数据 的 方法 。 因 此 ,为 了 有 效 提高 数据 仓库 的 运行 效率 ， 
可 对 常见 查询 所 访问 的 数据 进行 分 析 的 基础 上 ,设计 较为 复杂 的 索引 策略 。 由 于 数据 仓库 
的 数据 具有 非 易 失 性 ,因此 尽管 索引 的 设计 与 建立 工作 量 较 大 ,但 易于 维护 。 

3) 软 硬 件 配置 

数据 仓库 与 其 他 业务 系统 不 同 ,尤其 需要 对 数据 容量 进行 估算 ,这 是 由 于 数据 仓库 是 对 
以 往 历史 数据 的 集成 ,如 果 设 计时 不 加 以 考虑 ,很 快 就 会 造成 灾难 性 后 果 。 数 据 仓库 的 容量 
估算 应 该 是 可 预见 的 ,首先 确定 核心 明细 数据 的 存储 年 限 , 相 关 表 的 平均 字段 长 度 值 X 每 年 
的 记录 数 X 每 年 预计 的 增长 ,再 加 上 20% 的 元 余 , 以 及 磁盘 预 留 的 20% 的 元 余 , 即 可 得 到 数 
据 仓库 数据 量 的 估算 值 。 

数据 仓库 的 处 理 能 力 不 仅 与 容量 有 关 , 还 与 具体 的 关系 数据 库 的 性 能 息息相关 。 如 何 
在 Oracle, SQL Server、Sybase X € MySQL 之 间 寻 找平 衡 , 既 要 考虑 实际 预算 ,也 要 视 实际 
需求 而 定 。 关 于 硬件 的 配置 , 既 需要 发 挥 软件 的 功能 ,满足 实际 的 处 理 要 求 ,也 要 为 将 来 的 
系统 扩展 保留 一 定 空间 。 

4) 数据 存储 策略 设计 

由 于 同一 个 主题 的 数据 可 以 存放 在 不 同 的 介质 ,为 了 提高 存 取 效率 ,设计 者 常常 按照 数据 
的 重要 程度 、 粒 度 \ 使 用 频率 以 及 响应 时 间 等 要 求 将 数据 分 别 存放 在 不 同 的 存储 设备 。 

数据 存储 策略 包括 表 的 归并 、 表 的 物理 分 割 和 表 的 预 联接 等 。 

(1) 表 的 归并 

表 的 归并 是 指 在 物理 上 将 用 户 经 常 要 查询 的 放 在 一 起 ,减少 数据 L/O 次 数 ,提高 查询 
效率 , 表 的 归并 是 DBMS 提供 的 功能 。 

(2) 表 的 物理 分 割 

表 的 物理 分 割 是 指使 用 DBMS 提供 的 功能 ,对 逻辑 模型 中 的 数据 进行 再 次 分 离 。 通 
常 ,逻辑 模型 按照 一 定 的 业务 规则 对 数据 进行 分 割 ,而 物理 模型 一 般 是 按照 数据 的 使 用 情况 
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对 数据 进行 分 割 ,实际 中 将 数据 的 逻辑 分 割 和 物理 分 割 综合 加 以 应 用 。 例 如 ,在 逻辑 模型 中 
对 话 单 表 按 照 主 叫 号 码 的 所 属地 域 进 行 分 表 设计 ,在 物理 模型 中 对 每 个 表 再 按照 通话 日 期 
进一步 分 区 。 

(3) 表 的 预 联接 

表 的 预 联接 是 指 根据 数据 的 使 用 情况 ,利用 DBMS 提供 的 功能 (例如 Oracle 的 实体 化 
视图 Sybase 的 联接 索引 等 ) ,对 经 常 关联 的 表 事 先进 行 预 联接 处 理 ,以 提高 数据 访问 速度 。 

(4) 表 的 物理 特性 设计 

表 的 物理 特性 设计 是 指 对 表 的 初始 块 大 小 等 物理 特性 的 设计 ,主要 参考 表 中 数据 量 的 
情况 ,通过 对 物理 特性 的 设计 提高 数据 生成 效率 。 

5) 存储 分 配 参 数 

在 创建 传统 数据 库 的 过 程 中 ,需要 确定 数据 块 大 小 、 缓 冲 区 大 小 以 及 缓冲 区 数据 等 具体 
与 数据 存储 分 配 相关 的 参数 。 通 常 不 同 的 数据 库 厂商 都 会 根据 其 产品 的 应 用 实例 给 出 推荐 
的 配置 参数 , 供 设计 人 员 人 参考 进行 初始 配置 ,然后 在 系统 维护 过 程 中 根据 实际 情况 (数据 的 
增长 速度 、 用 户 查询 的 数据 量 和 频率 ) 进 行 调整 。 数 据 仓 库 是 建立 在 DBMS 上 的 ,因此 两 者 
在 这 一 点 上 相同 。 


2.2 ETL 设计 


除了 数据 模型 设计 外 ,数据 仓库 设计 还 包括 数据 装载 接口 设计 。 数 据 模型 设计 即 前 面 
提 及 的 数据 仓库 概念 模型 设计 、 人 逻辑 模型 设计 和 物理 模型 设计 ; 数据 装载 接口 设计 是 指 完 
成 从 操作 型 系统 的 数据 表 中 抽取 、 转 换 、 清 洗 以 及 将 细节 数据 聚合 为 不 同 综 合 层 次 的 数据 ， 
主要 包括 : 

CD 扫描 模块 的 设计 。 扫 描 模 块 用 于 对 现 有 业务 系统 进行 有 效 地 扫描 ,以 获取 需要 追 
加 的 数据 集合 。 

(2) 定义 数据 转换 和 清洗 规则 。 数 据 仓 库 需 要 从 多 个 不 同 的 数据 源 中 抽取 数据 ,不 同 
数据 源 的 数据 具有 不 一 致 性 ,良好 的 数据 转换 和 清洗 规则 是 数据 质量 的 重要 保证 。 

(3) 数据 抽取 模块 的 设计 。 将 需要 追加 的 数据 通过 格式 转换 、 清 洗 转 换 为 数据 仓库 的 
细节 表 。 

(4) 综合 模块 的 设计 。 将 细节 数据 聚合 成 各 个 综合 层次 的 数据 。 

数据 装载 接口 设计 的 重点 是 ETL 设计 ,下 面 将 详细 进行 介绍 。 

目前 ,数据 仓库 接口 的 实现 方法 有 两 种 ,一 是 程序 员 手 动 设计 处 理 集成 的 接口 程序 , 即 
通过 代码 实现 ETL 过 程 ; 二 是 购买 ETL 工具 软件 。 

如 果 将 数据 仓库 中 数据 模型 设计 比喻 为 一 座 大 厦 的 设计 蓝图 ,数据 是 砖 瓦 , 则 ETL 就 
是 建设 大 厦 的 过 程 。 在 整个 数据 仓库 的 实施 过 程 中 ,用 户 需 求 分 析 和 模型 设计 是 最 难 的 ,而 
ETL 的 设计 和 实施 则 是 工作 量 最 大 的 , 约 占 整个 项 目的 60 外 一 80% ,这 是 国内 外 众多 实践 
的 普遍 共识 。 

1. 主要 任务 

1) 数据 抽取 

这 一 部 分 需要 在 调研 阶段 做 大 量 的 工作 ,首先 需要 了 解数 据 来 自 哪 些 业 务 系统 ,各 个 业 


务 系统 的 数据 库 服务 器 运行 哪 种 DBMS, 是 否 存在 手工 数据 ,手工 数据 量 多 大 ,是 否 存在 非 
结构 化 的 数据 等 等 , 当 收 集 完 这 些 信息 后 才 可 以 进行 数据 抽取 的 设计 。 

(1) 对 于 与 DW 数据 库 系 统 相同 的 数据 源 的 处 理 方法 

对 于 这 一 类 数据 源 ,设计 上 比较 容易 。 一 般 情况 下 ,DBMS 都 提供 数据 库 链 接 功 能 ， 
在 DW 服务 器 和 原 业 务 系统 之 间 建 立 直接 的 链接 关系 则 可 以 通过 编写 SQL 语句 直接 
访问 。 

(2) 对 于 与 DW 数据 库 系统 不 同 的 数据 源 的 处 理 方法 

对 于 这 一 类 数据 源 ,一 般 情况 下 可 以 通过 ODBC 的 方式 建立 数据 库 链接 ,如 SQL 
Server 和 Oracle 之 间 。 如 果 不 能 建立 数据 库 链接 ,可 以 通过 两 种 方式 完成 ,一 是 利用 工具 
将 源 数据 导出 到 . txt 或 . xls 文件 ,然后 再 将 这 些 源 系 统 文件 导入 ODS; 二 是 通过 程序 接口 
完成 。 

(3) 对 于 文件 类 型 数据 源 ( 如 . txt、 xls) 的 处 理 方法 

可 以 培训 业务 人 员 利 用 数据 库 工具 将 这 类 数据 导入 到 指定 的 数据 库 , 然 后 从 指定 的 数 
据 库 中 抽取 。 或 者 借助 工具 实现 ,如 SQL Server 的 SSIS 服务 的 平面 数据 源 和 平面 目标 等 
组 件 导 入 ODS。 

(4) 增 量 更 新 的 问题 

对 于 数据 量 庞大 的 系统 ,必须 考虑 增 量 抽取 情况 下 ,业务 系统 记录 业务 发 生 的 时 间作 为 
增 量 标 志 , 即 每 次 抽取 前 首先 判断 ODS 中 记录 的 最 大 时 间 , 然 后 根据 这 一 时 间 去 业务 系统 
抽取 晚 于 这 一 时 间 的 所 有 记录 。 一 般 情况 下 ,业务 系统 没有 或 部 分 有 时 间 鹤 。 

2) 数据 清洗 

数据 清洗 (data cleansing ,data cleaning. data scrubbing) 是 一 个 减少 错误 和 不 一 致 性 ， 
解决 对 象 识别 的 过 程 。 一 般 情况 下 ,数据 仓库 分 为 ODS 和 DW 两 部 分 。 通 常 是 从 业务 系 
统 到 ODS 需要 进行 清洗 , 即 过 滤 脏 数据 和 不 完整 数据 ; 再 从 ODS 到 DW 需要 进行 转换 , 即 
进行 一 些 业务 规则 的 计算 和 聚合 。 数 据 清 洗 的 任务 是 过 滤 掉 不 符合 要 求 的 数据 ,将 过 滤 的 
结果 交 给 业务 主管 部 门 , 确 认 是 否 直接 过 滤 还 是 由 业务 部 门 修正 后 再 进行 抽取 。 数 据 清洗 
的 目的 是 保证 数据 仓库 的 数据 质量 。 

数据 质量 定义 为 数据 的 一 致 性 (consistency) , IE Wi TE (correctness) , sé SE TE Ccompleteness) 
和 最 小 性 (minimality) 四 个 指标 在 系统 中 得 到 满足 的 程度 。 其 中 : 

。 一 致 性 ”数据 的 值 和 描述 在 全 局 即 数 据 仓 库 中 均 表示 同样 的 含义 。 

。 正确 性 数据 的 值 和 描述 一 定 是 真实 的 和 业务 系统 保持 一 致 的 。 

。 完整 性 ”确保 所 有 数据 都 必须 是 有 意义 的 (不 能 为 空 值 ) 。 

。 最 小 性 数据 的 值 和 描述 有 且 仅 有 一 个 含义 。 

根据 处 理 的 是 单数 据 源 还 是 多 数据 源 以 及 是 模式 层 的 还 是 实例 层 的 ,可 将 数据 质量 问 
题 划分 为 四 类 : 单数 据 源 模式 层 问 题 ( 如 缺少 完整 性 约束 、 糟 糕 的 模式 设计 等 ) .单数 据 源 实 
例 层 问题 (如 数据 输入 错误 ) 多 数据 源 模式 层 问题 (如 异 构 数 据 模型 和 模式 设计 等 ) .多 数据 
源 实 例 层 问题 (如 元 余 、 冲 突 和 不 一 致 的 数据 等 )。 单 数据 源 中 出 现 的 问题 在 多 数据 源 中 也 
可 能 出 现 ,并 且 这 种 现象 很 普遍 ; 模式 层 的 问题 也 会 体现 在 实例 层 上 。 模 式 层 的 问题 可 以 
通过 改进 模式 设计 、 模 式 转化 和 模式 集成 加 以 解决 ; 但 实例 层 的 问题 在 模式 层 上 是 不 可 见 
的 ,所 以 数据 清洗 主要 针对 实例 层 的 数据 质量 问题 。 
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实际 上 ,数据 清洗 是 利用 诸如 数理 统计 、 数 据 挖掘 或 预定 义 的 数据 清洗 规则 等 将 脏 数据 
转化 为 满足 数据 质量 要 求 的 数据 。 

按照 数据 清洗 的 实现 方式 和 范围 ,可 将 数据 清洗 划分 为 四 种 类 型 , 即 : 

(1) 手工 实现 方式 : 用 人 工 检测 所 有 的 错误 并 改正 ,只 适用 于 小 数据 量 的 数据 源 。 

(2) 通过 编写 专门 的 应 用 程序 : 通过 编写 程序 检测 /改正 错误 。 但 通常 数据 清洗 是 一 
个 反复 的 过 程 ,将 导致 清理 程序 复杂 、 工 作 量 大 。 

(3) 某 类 特定 应 用 领域 的 ,如 运用 概率 统计 方法 查找 数值 异常 的 记录 。 

(4) 与 特定 应 用 领域 无 关 的 ,主要 集中 于 重复 记录 的 检测 /删除 。 

数据 清洗 是 ETL 的 一 个 重要 环节 ,其 主要 任务 是 检测 并 删除 /改正 将 装载 到 数据 仓库 
的 脏 数据 。 由 于 数据 仓库 的 多 种 异 构 数 据 源 和 海量 数据 ,数据 清洗 应 是 与 领域 无 关 的 ,而 且 
数据 清洗 不 是 ETL 中 一 个 独立 的 步骤 ,需要 与 数据 抽取 、 转 换 / 集 成 和 装载 协同 配合 ,并 循 
环 反复 进行 。 如 果 数 据 源 是 一 个 功能 较 强 的 DBMS( 如 图 2. 18 中 的 数据 源 1 和 数据 源 2), 
则 可 以 在 数据 抽取 时 使 用 SQL 完成 一 部 分 的 数据 清洗 工作 ,但 是 有 一 些 数据 源 不 提供 这 种 
功能 (如 图 2. 18 中 的 数据 源 3) ,只 能 直接 将 数据 从 数据 源 抽取 出 来 ,然后 在 数据 转换 时 进 
行 清洗 。 数 据 仓 库 的 数据 清洗 主要 还 是 在 数据 转换 时 进行 的 ,使 用 DBMS 的 转换 清洗 功能 
完成 大 部 分 的 工作 ,这 样 数据 清洗 就 充分 利用 了 DBMS 提供 的 功能 。 


转换 和 加 载 


数据 源 3 


数据 清洗 是 一 个 反复 的 过 程 ,不 可 能 在 几 天 内 完成 ,只 有 不 断 地 发 现 问题 .解决 问题 。 
对 于 是 否 过 滤 ,是 否 修正 往往 需要 用 户 确 认 。 对 于 过 滤 掉 的 数据 , 写 和 人 Excel 文件 或 将 过 滤 
数据 写 和 数据 表 , 在 初始 阶段 可 以 每 天 向 业务 部 门 发 送 过 滤 数据 的 邮件 ,促使 尽快 修正 错 
误 , 同 时 也 可 以 作为 将 来 验证 数据 的 依据 。 

3) 数据 转换 

数据 仓库 抽取 数据 的 过 程 是 从 业务 数据 库 开始 的 ,中 间 会 经 过 数据 转换 的 过 程 ,成 为 数 
据 仓 库 需 要 的 数据 。 在 进行 数据 转换 之 前 ,必须 首先 进行 数据 映射 (source data mapping)， 
明确 定义 数据 仓库 的 每 个 表 、 每 个 字段 来 自 源 系统 或 接口 单元 中 的 哪个 表 、 哪 个 字段 。 这 种 
映射 关系 可 能 很 简单 ,例如 表 是 完全 一 对 一 的 关系 ,直接 复制 到 数据 仓库 即 可 ; 也 可 能 很 复 
杂 , 数 据 仓库 的 某 张 表 可 能 来 源 于 源 系统 中 的 多 个 表 , 这 些 源 表 通 过 一 定 的 关系 被 关联 起 
来 ,然后 对 表 中 的 一 些 字段 进行 转换 后 , 变 成 数据 仓库 中 目标 表 的 对 应 字段 。 数 据 转换 的 任 
务 是 对 不 一 致 数据 的 转换 ,数据 粒度 的 转换 以 及 一 些 业 务 规则 的 计算 。 其 中 : 


2.18 数据 清洗 过 程 


CD 不 一 致 数据 的 转换 : 这 是 一 个 整合 的 过 程 , 将 不 同业 务 系统 相同 类 型 的 数据 统一 。 
例如 同一 个 代理 商 在 结算 系统 的 编码 是 XX0001, 而 在 客户 关系 管理 (Customer 
Relationship Management,CRM) 系 统 的 编码 是 YY0001, 这 样 在 抽取 后 统一 转换 成 同一 个 
编码 。 

(2) 数据 粒度 的 转换 : 业务 系统 一 般 存 储 非常 明细 的 数据 ,而 数据 仓库 的 数据 用 于 分 
析 , 不 需要 非常 明细 的 数据 。 一 般 情况 下 .会 将 业务 系统 的 数据 按照 数据 仓库 的 粒度 进行 
Ya. 

(3) 业务 规则 的 计算 : 不 同 的 企业 拥有 不 同 的 业务 规则 ,不 同 的 数据 指标 ,这 些 指 标 有 
时 不 是 简单 的 运算 能 够 完成 ,需要 在 ETL 中 将 这 些 指 标 进行 计算 后 存储 在 数据 仓库 , 供 分 
析 使 用 。 

4) 数据 装载 

数据 装载 是 将 从 数据 源 抽 取 、 转 换 、 清 洗 后 的 数据 装载 到 数据 仓库 。 数 据 装 载 策略 需 考 
虑 装载 周期 以 及 数据 追加 策略 两 个 方面 。 根 据 业 务 数据 的 实际 情况 ,装载 周期 应 综合 考虑 
业务 分 析 需 求 和 系统 装载 代价 ,对 不 同业 务 系统 的 数据 采用 不 同 的 装载 周期 ,但 必须 保持 同 
一 时 间 业 务 数据 的 完整 性 。 数 据 追 加 策略 根据 数据 抽取 策略 以 及 业务 规则 确定 ,一 般 分 为 
直接 追加 、 全 部 覆盖 和 更 新 追加 三 种 类 型 。 

(1) 直接 追加 是 指 每 次 装载 时 直接 将 数据 追加 到 目标 表 。 

(2) 全 部 覆盖 是 指 如 果 抽 取 数 据 本 身 已 经 包括 数据 的 当前 和 所 有 历史 状况 ,可 对 目标 
表 采 用 全 部 覆盖 的 方式 。 

(3) 更 新 追加 是 指 对 于 需要 连续 记录 业务 的 状态 变化 ,并 用 当前 最 新 状态 与 历史 状态 
进行 对 比 的 情况 ,可 以 采用 更 新 追加 的 方式 。 

2. 设计 原则 

由 于 数据 源 的 多 样 性 ,数据 传输 条 件 的 不 确定 性 以 及 用 户 对 最 终 统计 数据 的 选择 性 等 
因素 ,使 得 ETL 设计 不 仅 要 考虑 业务 数据 处 理 的 要 求 , 还 应 考虑 数据 传输 过 程 中 如 何 解决 
上 述 问 题 。ETL 设计 一 定 是 针对 具体 应 用 ,不 同 的 业务 和 分 析 模 型 的 抽取 要 求 不 同 ,所 以 
ETL 整体 架构 的 灵活 性 和 扩展 性 非常 重要 。 

ETL 设计 应 遵循 的 原则 如 下 : 

(1) ETL 设计 前 需要 根据 业务 特点 确定 分 析 主 题 和 分 析 模 型 的 结构 ,区 分 维度 数据 和 
事实 数据 ,建立 相应 的 数据 仓库 模型 。 在 设计 过 程 中 应 考虑 是 否 需要 预 留 字段 ,增加 属 
性 等 。 

(2) 数据 粒度 在 同一 立方 体 (Cube) 中 必须 统一 。 事 实 表 的 粒度 就 是 维 表 与 事实 表 相 关 
联 的 最 小 级 别 , 尽 可 能 采用 粗 粒度 以 有 效 减 少数 据 量 , 但 是 不 同 的 分 析 可 能 存在 差异 ,例如 
话 务 量 趋势 预测 的 主题 中 可 以 小 时 为 粒度 ,但 是 在 一 些 实时 性 要 求 较 高 的 忙 时 话 务 量 分 析 
主题 中 需要 采用 15 分 钟 甚至 5 分 钟 的 粒度 。 

(3) 数据 周期 的 确定 ,在 ETL 设计 时 需要 事先 确定 抽取 的 时 间 , 这 可 能 需 根据 用 户 对 
实时 性 的 要 求 作为 调整 的 依据 。 

(4) 尽量 采用 增 量 的 抽取 方式 以 减 小 每 次 抽取 的 数据 量 。 

(5) 数据 流 和 工作 流 的 概念 。 在 ETL 中 需要 考虑 数据 在 每 一 步骤 的 状态 和 转换 行为 ， 
数据 的 清洗 .转换 和 加 载 过 程 是 由 很 多 步骤 完成 的 ,每 一 步骤 一 定 是 数据 的 一 个 原子 业务 操 
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作 。 可 以 根据 需要 调整 步骤 ,在 数据 流 可 能 会 出 现 分 支 的 情况 , 即 在 不 同 条 件 下 采用 不 同 的 
Ab RE fit 

(6) 流程 的 异常 处 理 。 在 流程 中 需要 考虑 各 种 可 能 的 异常 的 存在 ,如 网 络 闪 断 ,数据 的 
延迟 产生 等 等 。 因 此 ,需要 在 流程 中 加 入 一 些 补救 措施 予以 纠正 ,保证 导入 数据 仓库 的 数据 
绝对 正确 (但 流程 的 设计 尽量 依照 简单 .高效 的 原则 ) 。 

C) ETL 的 调整 .运行 管理 以 及 监控 。ETL 程序 的 运行 应 该 有 相关 的 管理 和 监控 工 
具 。 一 方面 用 于 ETL 的 设置 和 调整 ; 另 一 方面 也 便于 ETL 出 现 异 常 时 能 够 及 时 通过 人 工 
方式 干预 ,保证 ETL 正常 运行 。 

(8) 针对 业务 需求 进行 ETL 的 配置 和 设置 ,方便 专业 维护 人 员 和 开发 人 员 对 抽取 任务 
进行 调整 和 灵活 配置 。 

(9) Cube 的 管理 。 除 了 对 数据 仓库 的 管理 和 数据 的 处 理 之 外 ,ETL 很 重要 的 工作 是 对 
Cube 的 管理 。 根 据 Cube 特性 考虑 对 维度 和 Cube 的 更 新 ,以 及 对 Cube 分 区 的 新 建 、 处 理 
和 合并 等 一 系列 操作 。 

(10) 数据 仓库 有 一 个 初始 化 的 过 程 ,即将 以 前 的 业务 数据 进行 整理 和 加 载 ,但 是 数据 
量 非常 巨大 ,需要 花费 较 长 的 时 间 , 而 且 抽 取 策略 与 平时 的 不 同 。 

QD 程序 具有 自修 复 功 能 。 在 任何 一 个 步骤 出 现 异常 ,ETL 程序 都 能 够 回 退 到 抽取 
前 的 状态 ,而 不 需要 人 工 干 预 ,更 不 能 影响 到 已 抽取 的 数据 。 

3. 设计 步骤 

ETL 设计 的 主要 步骤 如 下 : 

1) 设计 数据 准备 区 的 数据 结构 

数据 准备 区 是 ETL 专门 用 于 对 数据 进行 抽取 、 清 洗 和 转换 等 处 理 的 临时 数据 库 , 需 要 
根据 实际 需求 设计 数据 准备 区 的 库 表 结构 。 

2) 定义 数据 抽取 规则 

数据 抽取 首先 需要 定义 数据 抽取 规则 ,记录 在 “数据 抽取 规则 表 ” 中 ,然后 再 设计 数据 抽 
取 流 程 。 

3) 定义 数据 清洗 规则 

数据 清洗 转换 是 为 了 处 理 数据 源 中 存在 错误 不一致 或 无 用 的 数据 , 即 “ 脏 数据 *”。 在 清 
洗 “ 脏 数据 ”之 前 ,必须 清楚 存在 哪些 “ 脏 数据 ”, 并 记录 在 “ 脏 数据 登记 表 ” 中 。 对 发 现 的 “ 脏 
数据 ,逐一 确定 清洗 转换 规则 ,记录 在 “清洗 转换 规则 表 ” 中 。 

4) 定义 数据 转换 规则 

数据 转换 是 将 抽取 的 数据 进行 过 滤 、 合 并 、 解 码 和 翻译 等 ,为 数据 仓库 创建 有 效 数 据 的 
过 程 。 转 换 的 过 程 需要 理解 业务 侧重 点 \ 信 息 需求 和 目前 可 用 的 源 数据 。 通 常数 据 抽取 完 
毕 后 ,应 根据 企业 业务 的 具体 需求 ,设计 和 定义 一 系列 的 数据 转换 规则 ,转换 规则 主要 包括 : 

CD 字段 级 : 定义 数据 类 型 转换 、 增 加“ 上下文? 数据 ,如 时 间 截 。 

(2) 多 数据 源 整合 : 字段 映射 (mapping) 代码 变换 (transposing) 将 不 同 数据 源 中 的 数 
据 值 规范 成 数据 仓库 的 数据 值 。 例 如 ,将 源 系统 非 英文 编码 转换 成 数据 仓库 英文 编码 ,将 源 
系统 信息 编码 转换 成 数据 仓库 信息 编码 等 。 合 并 (merging) 将 两 个 或 更 多 源 系 统 记 录 合 并 
成 一 个 输出 或 目标 记录 。 派 生 (derivation) 根 据 源 数据 ,利用 公式 产生 数据 仓库 需要 的 数 
据 。 例 如 由 身份 证 号 码 计算 生日 .性 别 和 年 龄 等 。 


(3) 聚合 (aggregation) 和 汇总 (summarization) 
5) ETL 流程 设计 
ETL 流程 设计 是 定义 ETL 流程 的 步骤 ,并 确定 每 一 步骤 需要 完成 的 工作 ,以 流程 图 的 


形式 加 以 描述 。 
4. 实现 工具 


一 个 有 效 的 ETL 方案 是 成 功 构建 数据 仓库 的 首要 因素 。ETL 实现 方式 有 两 种 , 即 购 
SK ETL 工具 和 手工 编码 , 表 2. 2 给 出 了 这 两 种 方式 的 比较 ,为 企业 最 终 根据 实际 情况 选择 
合适 的 方式 提供 参考 ,ETL 工具 早期 的 数据 迁移 大 多 是 开发 人 员 手 工 编码 实现 。 


表 2.2 购买 工具 和 手工 编码 两 种 ETL 实现 方式 的 比较 


性 能 ETL 工 具 手工 编码 
灵活 性 比较 灵活 非常 灵活 

难 易 程 度 相对 容易 要 求 一 定 技术 水 平 
管理 和 维护 容易 较 难 

性 能 和 效率 较 高 取决 于 代码 的 质量 
开发 周期 较 短 较 长 

工作 量 中 等 较 重 

价格 较 高 相对 较 低 


选择 ETL 工具 时 应 考虑 可 能 影响 ETL 功能 的 主要 因素 ,主要 包括 平台 的 支持 ; 数 
据 转 换 功 能 ; 管理 和 调度 的 功能 ; 集成 和 开发 性 以 及 对 元 数据 的 管理 等 。 目 前 ,市 场 上 
主流 的 ETL 工具 分 为 两 大 类 : 一 类 是 ETL 厂商 提供 的 产品 ,一 般 都 具有 和 较 完善 的 体系 
结构 和 功能 ,典型 产品 包括 Ascential DataStageXE 和 Informatica; 另 一 类 是 数据 库 厂 商 提 
供 的 整体 数据 仓库 解决 方案 和 产品 ,这 类 产品 在 提供 数据 仓库 存储 、 设 计 和 展现 工具 的 
同时 提供 相应 的 ETL 工具 ,它们 对 相关 产品 具有 很 好 的 支持 并 能 发 挥 出 最 大 效率 ,但 结 
构 封 闭 , 对 其 他 厂商 的 产品 支持 有 限 , 如 Oracle Warehouse Builder 和 IBM Warehouse 


Manager 等 。 


评价 ETL 工具 的 主要 因素 包括 : 


系统 的 稳定 性 和 可 用 性 。 


程 的 能 力 。 


难度 。 


可 靠 性 : 系统 具有 高 的 容错 性 和 故障 恢复 能 力 ,具备 完善 的 备份 .恢复 等 机 制 保证 
可 衡量 性 : 系统 的 性 能 指标 可 以 根据 系统 的 软 硬 件 配置 进行 调整 ,系统 扩展 性 强 。 
性 能 : 系统 具备 并 行 计算 、 负 载 调度 等 保障 系统 性 能 的 良好 机 制 和 能 力 。 

代码 生成 能 力 : 将 图 形 化 操作 生成 的 ETL 过 程 转换 为 标准 SQL 或 系统 专用 存储 过 


开发 : 系统 提供 的 开发 接口 的 通用 性 、 灵 活性 、 功 能 性 决定 了 系统 开发 的 工作 量 和 


。 元 数据 管理 : 系统 可 以 维护 ETL 中 的 技术 元 数据 和 业务 元 数据 。 


* 管理 : ETL 的 管理 包括 系统 的 安装 .配置 以 及 维护 。 


四 种 常用 ETL 工具 的 综合 比较 如 表 2.3 所 示 。 
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表 2.3 四 种 常用 ETL 工具 的 综合 比较 


工具 名 称 可 靠 性 | 可 衡量 性 性 能 代码 生成 能 力 开发 | 元 数据 管理 | ”管理 
Power Mart B B A A A B A 
Datastage B B A A A B A 
OWB B B Cc B B c B 
DB2 WM B A C B B C B 


注 : A 表示 优秀 ,B 表示 较 好 ,C 表示 一 般 。 


2.3 数据 仓库 实现 


1 
构造 方向 


数据 仓库 实现 的 方法 主要 包括 自 顶 向 下 、 自 底 向 上 、 平 行 开发 有 反馈 的 自 顶 向 下 和 有 
1. 自 项 向 下 决策 分 析 
这 是 一 种 由 整体 到 局 部 ,逐步 细 化 的 实现 1 
进行 分 析 , 在 此 基础 上 实施 数据 仓库 的 总 体 设 E 加 El 
计 和 规划 ,准备 元 数据 。 随 后 ,进行 外 部 数据 源 
理 后 的 数据 导入 数据 仓库 ,元 数据 也 同时 导入 ， 
从 而 建立 一 个 完整 的 数据 仓库 ,并 针对 各 个 主 
图 2. 19 所 示 , 其 中 数据 集 市 是 数据 仓库 的 真子 
集 。 数 据 仓 库 的 实现 过 程 直观 ,清晰 、 易 于 理 
入 的 理解 ,保证 各 数据 集 市 都 是 数据 仓库 的 真 图 2.19 自 项 向 下 的 数据 仓库 实现 方法 
子 集 , 则 可 以 完全 消除 信息 之 间 的 “ 珠 网 "现象 。 
慢 , 尤 其 在 项 目 实施 初期 见效 不 明显 。 
2. 自 底 向 上 
据 仓 库 能 较 快 地 发 挥 作用 ,产生 效益 。 为 了 满足 上 述 要 求 ,并 克服 自 项 向 下 方法 的 不 足 , 自 
底 向 上 的 方法 应 运 而 生 。 
各 部 门 的 需求 视 为 分 解 后 的 决策 子 目 标 ,并 针对 这 些 子 目 标 建立 各 自 的 数据 集 市 ,从 而 获得 
最 快 的 回报 。 在 此 基础 上 ,对 系统 不 断 扩充 ,逐步 形成 完善 的 数据 仓库 ,以 实现 对 企业 决策 
部 件 。 自 底 向 上 的 实现 方法 如 图 2.20 所 示 。 其 特点 是 投资 小 、 见 效 快 。 由 于 部 门 级 的 数据 结 
构 简单 ,决策 需求 明确 ,因此 易于 实现 。 但 是 由 于 数据 集 市 缺少 元 数据 ,最 终 构建 数据 仓库 的 


反馈 的 自 底 向 上 等 ,这 里 主要 介绍 当前 业界 流行 的 自 顶 向 下 、 自 底 向 上 和 平行 开发 三 种 。 

方法 。 首 先 对 分 散在 各 业务 数据 库 的 数据 特征 

的 数据 抽取 、 转 换 和 加 载 等 一 系列 处 理 , 并 将 处 数据 集 市 

题 建立 数据 集 市 ,以 满足 分 析 决策 的 需求 ,如 

解 ,只 要 对 外 部 数据 源 和 所 支持 的 决策 有 较 深 m" 

甚 不足 之 处 是 要 求 设计 者 对 业务 有 深入 的 理解 ,系统 设计 规模 偏 大 ,实施 周期 过 长 ,见效 组 
一 般 企业 在 构建 数据 仓库 时 ,往往 准备 的 数据 规模 偏 小 ,决策 目标 不 明确 ,并 且 希 望 数 
与 自 顶 向 下 方法 相反 , 自 底 向 上 方法 的 设计 思路 是 先 具体 ,后 综合 。 首 先 ,将 企业 内 部 

的 支持 。 由 于 数据 集 市 结构 简单 ,数据 综合 度 较 低 ,因此 不 需要 创建 数据 仓库 所 必需 的 元 数据 

过 程 具有 相当 的 难度 ,并 有 可 能 影响 数据 仓库 整体 结构 的 合理 性 以 及 系统 运行 的 效率 。 


3. 平行 开发 

平行 开发 是 指 在 同一 个 模型 的 指导 下 ,建立 数据 仓库 的 同时 ,建立 若干 个 数据 集 市 ,如 
图 2. 21 所 示 。 这 种 方法 是 在 自 项 向 下 的 基础 上 ,同时 吸收 了 自 底 向 上 的 优点 ,因此 可 以 认 
为 是 两 种 方法 的 有 机 结合 。 


决策 分 析 


决策 分 析 l 


数据 仓库 模型 
全 局 元 数 ” 三 = 
据 中 心 库 数据 集 市 
DB DB DB 
数据 集 市 动态 数据 存储 区 
(DDS) 
Á eb es us 
数据 源 外 部 数据 源 


图 2.20 自 底 向 上 的 数据 仓库 实现 方法 图 2.21 平行 开发 的 数据 仓库 实现 方法 


平行 开发 中 ,数据 仓库 和 数据 集 市 遵循 统一 数据 模型 的 指导 ,同时 建立 ,避免 建立 相互 
独立 的 数据 集 市 的 盲目 性 ,有 效 减 少数 据 的 不 一 致 和 元 余 。 其 核心 为 两 部 分 : 一 是 统一 的 
全 局 元 数据 中 心 库 (GMR) ,记录 数据 仓库 的 主题 域 .通用 维 、 业 务 规则 和 其 他 各 种 元 数据 ; 
其 二 是 动态 数据 存储 区 (DDS) ,存储 从 外 部 数据 源 抽取 的 数据 ,并 为 进一步 处 理 做 好 准备 。 
GMR 和 DDS 不 是 一 成 不 变 的 ,它们 都 随 着 外 部 数据 源 以 及 决策 需求 的 变化 而 改变 。 

上 述 实现 方法 中 ,第 一 种 方法 类 似 于 软件 工程 中 “ 自 顶 向 下 ”的 方法 ,投资 大 、 周 期 长 。 
第 二 种 方法 恰好 相反 ,类似 于 软件 工程 中 “ 自 底 向 上 ”的 方法 ,投资 少 、 周 期 短 且 易 见 成 效 , 但 
由 于 设计 之 初 是 以 特定 的 部 门 级 主题 为 框架 ,向 其 他 的 主题 和 部 门 扩 充 往往 比较 困难 。 实 
际 中 ,大 多 采用 第 二 种 方法 。 

“ 自 底 向 上 ”地 建立 数据 仓库 ,并 不 意味 着 不 需要 在 设计 阶段 的 长 远 规划 。 采 用 逐步 积 
累 的 方式 建立 数据 仓库 ,其 最 大 的 问题 是 已 有 的 框架 无 法 把 新 的 业务 集成 进来 。 因 此 ,在 设 
计 阶 段 就 必须 充分 考虑 到 这 一 点 。 例 如 ,部 门 级 的 主题 是 否 有 助 于 形成 企业 级 的 主题 ,数据 
加 载 模块 是 否 能 够 重用 等 等 。 数 据 仓库 的 长 远 规划 ,并 不 仅仅 是 技术 部 门 的 事情 ,应 当 把 构 
建 数据 仓库 作为 企业 发 展 战略 的 一 个 组 成 部 分 。 在 设计 阶段 需要 不 同 部 门 的 沟通 和 协调 ， 
技术 框架 和 系统 设计 必须 从 整个 企业 的 角度 加 以 考虑 ,即使 刚 开始 实施 时 是 面向 某 个 部 门 
的 。 就 这 一 点 而 言 ,建立 一 个 企业 级 的 数据 仓库 ,主要 的 障碍 不 是 技术 ,而 是 不 同 部 门 之 间 
的 组 织 和 协调 问题 。 

目前 ,系统 开发 方法 有 多 种 ,如 生命 周期 法 、 快 速 原 型 法 和 螺旋 法 等 。 通 常人 们 在 开发 
数据 库 系统 时 多 采用 生命 周期 法 或 原型 法 ,但 由 于 数据 仓库 固有 的 特点 ,传统 的 生命 周期 法 
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和 原型 法 并 不 适用 于 数据 仓库 的 开发 。 
螺旋 式 开发 方法 采用 “分 而 治之 ”的 思想 ,将 一 个 庞大 的 任务 划分 成 多 个 阶段 。 在 每 一 
阶段 ,项 目 按照 问题 定义 、 系 统 分 析 、 系 统 设计 、 开 发 .实现 、 维 护 和 系统 评估 进行 。 一 个 阶段 
完成 后 ,再 开始 新 的 阶段 ,而 每 一 阶段 都 是 以 前 一 阶段 的 结果 为 参考 点 ,再 增加 新 的 需求 项 
目 , 直 到 所 有 的 需求 都 满足 为 止 。 
螺旋 式 开 发 方法 具有 以 下 特点 : 
。 每 一 个 区 域 均 含有 一 系列 适应 待 开发 项 目 特点 的 工作 任务 。 
* 适用 于 需求 不 断 增长 系统 的 开发 。 
与 传统 的 开发 方法 不 同 ,螺旋 法 不 是 当 软 件 交付 时 就 结束 了 , 它 能 够 适用 于 系统 开发 和 
使 用 的 整个 生命 周期 ,一直 运转 到 软件 退役 。 有 时 这 一 过 程 处 于 休眠 状态 ,但 任何 时 候 出 现 
了 改变 ,过 程 都 会 从 合适 的 入口 点 开始 继续 运转 。 
一 般 地 ,数据 仓库 的 原始 需求 并 不 明确 , 且 不 断 变 化 与 增加 ,开发 者 最 初 并 不 能 确切 了 
解 用 户 明 确 而 详细 的 需求 ,用 户 所 能 提供 的 无 非 是 需求 的 大 方向 以 及 部 分 需求 ,不 能 较 准 确 
地 预见 到 以 后 的 需求 。 因 此 ,数据 仓库 比较 适合 采用 螺旋 式 的 开发 方法 ,但 是 这 又 不 同 
于 一 般 意义 上 的 螺旋 法 ,数据 仓库 是 在 原 有 数据 库 基础 上 构建 的 , 即 从 已 经 存在 于 操作 
型 数据 库 环境 中 的 数据 出 发 构建 数据 仓库 , 即 是 “数据 驱动 ”的 ,因此 恰当 的 称谓 是 数据 
了 驱动 的 螺旋 式 开发 方法 ,该 方法 将 数据 驱动 的 思想 与 螺旋 法 结合 起 来 。 基 于 “数据 驱动 ” 
的 主要 特点 是 : 
。 利 用 以 前 已 经 建立 的 数据 库 构建 数据 仓库 。 尽 量 利用 已 存在 的 数据 和 代码 ,而 不 是 
从 头 开始 ,这 是 数据 驱动 思想 的 出 发 点 。 
。 基于 数据 驱动 的 方法 不 再 面向 应 用 ,而 是 面向 主题 。 数 据 仓 库 的 开发 是 从 已 有 的 数 
据 库 系 统 出 发 ,按照 分 析 领 域 的 要 求 对 数据 及 数据 之 间 的 关联 重新 考察 ,以 组 织 数 
据 仓 库 的 主题 。 
基于 数据 驱动 的 螺旋 式 开发 方法 是 一 个 不 断 向 外 扩展 的 迭代 过 程 ,其 起 点 较 低 , 每 迭代 
一 次 ,螺旋 线 增加 一 周 , 数 据 仓库 的 开发 又 前 进 一 个 层次 ,系统 又 生成 一 个 新 版 本 ,而 软件 开 
发 的 时 间 和 成 本 又 有 新 的 投入 。 在 沿 螺旋 线 前 进 的 过 程 中 ,最 后 总 能 得 到 一 个 用 户 满意 的 
软件 版 本 。 所 以 基于 数据 驱动 的 螺旋 式 开发 方法 ,非常 适 于 数据 仓库 面向 主题 ` 基 于 数据 驱 
动 的 开发 特点 。 该 方法 也 是 目前 数据 仓库 常用 的 开发 方法 。 
数据 仓库 的 建立 是 一 个 数据 驱动 技术 支撑 并 满足 应 用 需求 的 不 断 增 长 的 开发 过 程 。 
数据 仓库 的 开发 像 生物 一 样 具有 其 特有 的 、 完 整 的 生命 周期 。 数 据 仓库 的 开发 周期 可 以 分 
为 规划 分 析 阶 段 .设计 实施 阶段 以 及 使 用 维护 三 个 阶段 。 这 三 个 阶段 是 一 个 不 断 循环 、 完 善 
和 提高 的 过 程 。 一 般 情 况 下 ,数据 仓库 不 可 能 在 一 个 循环 过 程 中 完成 ,而 是 经 过 多 次 循环 ， 
每 次 循环 都 会 为 系统 增加 新 的 功能 ,使 数据 仓库 的 应 用 得 到 新 的 提升 。 
数据 仓库 建成 后 进入 运行 维护 。 一 方面 ,用 户 使 用 数据 仓库 中 的 数据 进行 决策 或 者 分 
析 , 即 在 数据 仓库 中 建立 DSS 应 用 ,同时 ,用 户 将 使 用 情况 和 新 的 需求 反馈 给 开发 人 员 以 进 
一 步 完 善 系统 ,并 管理 数据 仓库 的 一 些 日 常 活动 ,如 刷新 数据 仓库 的 当前 详细 数据 ,将 过 时 
的 数据 转换 为 历史 数据 ,清除 不 再 使 用 的 数据 ,并 调整 数据 粒度 级 别 等 。 
数据 仓库 维护 的 首要 任务 是 数据 备份 与 恢复 。 数 据 仓 库 的 数据 是 多 年 积累 的 结果 ,可 
能 包括 10 年 甚至 20 年 的 数据 。 这 些 数据 代表 了 企业 浓缩 和 丰富 的 历史 。 构 建 一 个 成 功 的 


数据 仓库 投入 的 资源 无 疑 是 巨大 的 ,所 以 数据 仓库 的 数据 一 旦 丢失 ,将 给 企业 造成 重大 损 
失 。 为 避免 这 种 灾难 的 发 生 ,需要 对 数据 不 断 备 份 。 

(1) 备份 

备份 是 数据 安全 的 保证 。 实 现 备 份 需要 考虑 以 下 因素 : 

。 确定 哪些 部 分 需要 备份 。 将 当前 数据 和 历史 数据 分 离 ,当前 数据 源 随 操作 型 系统 的 
输入 而 增长 ,历史 数据 是 过 去 的 内 容 , 应 经 常 性 地 备份 当前 数据 ,历史 数据 没有 必要 
频繁 备份 。 

。 数据 仓库 的 容量 是 一 个 大 问题 。 完 全 备份 数据 仓库 需要 花费 很 长 的 时 间 , 除 了 完全 
备份 ,可 以 考虑 日 志 备份 和 差异 备份 。 

。 定期 归档 数据 。 在 数据 仓库 中 周期 性 地 将 非常 陈旧 的 数据 归档 。 归 档 可 以 减少 备 
份 和 恢复 的 时 间 ,提高 检索 性 能 。 

* 备份 时 间 。OLTP 系统 备份 一 般 在 晚上 执行 ,但 对 于 数据 仓库 晚上 的 时 间 用 于 每 日 
的 增 量 装载 ,可 以 考虑 备份 和 装载 同步 进行 。 如 果 可 用 的 话 , 将 增 量 装载 文件 作为 
备份 的 一 部 分 存储 。 

。 备份 介质 的 选择 。 备 份 介质 的 选择 很 重要 ,这 取决 于 数据 仓库 的 容量 。 

(2) 恢复 

当 数 据 仓 库 发 生 骨 溃 时 ,可 以 利用 备份 文件 恢复 系统 。 一 般 地 ,恢复 过 程 需 要 注意 以 下 
问题 ， 

。 明确 的 恢复 计划 。 将 不 同 的 灾难 情况 列表 ,指出 每 种 情况 下 如 何 恢复 。 

。 考虑 公司 的 条 件 ,建立 恢复 步骤 ,估计 恢复 的 期 望 停机 时 间 ,正确 .迅速 地 通知 用 户 。 

。 如 果 必 须 在 源 系 统 完成 恢复 过 程 , 应 保证 源 系统 可 用 。 

构建 数据 仓库 是 一 项 长 期 工作 ,与 其 他 系统 一 样 需要 在 运行 过 程 中 不 断 调整 和 完善 。 
其 次 是 性 能 优化 。 数 据 仓库 涉及 海量 数据 的 查询 和 大 量 写 和 人 读 出 ,不仅 对 系统 要 求 很 高 ,而 
且 与 OLTP 的 要 求 极为 不 同 ,因此 在 数据 仓库 设计 、 开 发 .实施 和 维护 过 程 中 ,数据 仓库 系 
统 的 性 能 都 是 一 个 不 容 忽视 的 问题 。 尤 其 是 在 运行 期 间 , 应 密切 关注 应 用 对 系统 资源 的 消 
耗 情况 ,针对 应 用 特点 及 时 进行 系统 的 调整 ,包括 调整 数据 库 参 数 .数据 分 片 设置 .创建 特殊 
索引 力 至 提高 系统 配置 等 。 

此 外 ,还 可 以 考虑 模型 的 调整 。 应 用 与 需求 是 相互 促进 、 不 断 发 展 的 , 随 着 系统 建成 并 
运行 ,用 户 在 对 系统 了 解 不 断 加 深 的 过 程 中 ,也 会 对 系统 提出 更 新 .更 高 的 要 求 。 如 何在 最 
小 投入 的 前 提 下 满足 用 户 的 需求 ,也 是 一 个 值得 注意 和 潜心 研究 的 问题 。 应 尽 可 能 挖掘 现 
有 系统 的 潜力 ,其 次 考虑 对 主题 的 增加 或 在 现 有 系统 增加 少量 指标 ,对 系统 进行 适当 调整 ， 
最 后 才 考 虑 系统 重 构 , 尽 可 能 减 小 系统 建设 的 投入 。 
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第 3 章 数据 仓库 实例 


3.1 实例 一 


随 着 数据 仓库 技术 的 成 熟 ,国外 数据 仓库 技术 已 广泛 应 用 于 电信 、 金 融和 保险 等 行业 。 
近年 来 ,中 国 移动 .中 国电 信和 中 国联 通 等 电信 运营 商 纷纷 制定 出 经 营 信息 服务 系统 技术 规 
范 和 业务 规范 ,开始 建设 企业 级 数据 仓库 系统 ,引领 国内 数据 仓库 应 用 的 发 展 。 

在 “全 业务 ”运营 模式 下 如 何 发 挥 综合 优势 ,实现 灵活 多 变 的 市 场 营 销 策略 ,为 客户 提供 
更 具有 针对 性 的 服务 ; 同时 最 大 限度 地 合理 配置 和 优化 自身 资源 ,降低 运营 成 本 ,以 增强 企 
业 的 核心 竞争 力 ,成 为 当前 迫切 需要 解决 的 问题 。 其 中 ,市场 策 略 的 应 对 速度 是 保持 竞争 力 
的 重要 手段 ,而 市 场 应 对 策略 的 制定 需要 丰富 真实. 及 时 的 经 营 信息 提供 支持 。 因 此 ,构建 
数据 仓库 势 在 必 行 。 下 面 将 详细 介绍 如 何 构建 一 个 简单 的 面向 电信 和 领域 的 数据 仓库 。 


3.1.1 选择 主题 


根据 电信 业务 和 运营 的 需求 ,其 主要 主题 域 如 图 3. 1 所 示 。 
参与 人 有 账单 要 求 


| 参与 人 产品 关 
购买 使 用 trt 
[=| S54 产品 Word 账 务 
参与 人 一 一 产品 规格 账单 要 求 /支付 账户 
| | 参与 人 角色 商品 规格 账单 账目 
参 优惠 政策 账单 支付 
p 营销 针对 产品 j 产品 /商品 资费 计划 
对 会 | “| 操作 
5 E KA 
人 历 联 产品 
事 
t ft 
一 | 市 场 营销 e 事件 地 域 
营销 
市 场 战役 事件 | 事件 地 址 
渠道 工作 单 地 域 
地 域 特征 
| 市 场 营 销 关心 地 域 | 


3.1 电信 和 领域 的 主要 主题 域 


(1) 参与 人 主题 域 指 与 电信 运营 商 的 业务 或 管理 活动 存在 联系 的 任何 个 人 或 组 织 机 
构 , 是 一 切 电信 活动 的 主体 ,包含 电信 企业 的 客户 .联系 人 等 所 有 消费 电信 产品 的 信息 ,参与 
人 角色 则 描述 了 参与 人 在 消费 过 程 中 扮演 的 角色 。 

D 产品 主题 域 主要 包括 产品 和 商品 两 个 概念 。 产 品 是 指 电信 运营 商 利用 自身 的 资源 


或 者 第 三 方 资源 ,为 客户 提供 具有 市 场 价值 的 基本 元 素 ; 商品 是 指 电信 运营 商 利 用 营销 手 
段 针 对 不 同 的 营销 渠道 .客户 细 分 .地 域 细 分 和 销售 目标 等 ,对 产品 规格 .资费 计划 进行 必要 
的 组 合 包装 的 产物 。 产 品 是 电信 企业 提供 的 基本 服务 单元 ,如 固定 电话 、 小 灵通 、 专 线 等 ; 
商品 是 指 给 产品 制定 了 资费 以 后 的 服务 。 参 与 人 直接 购买 使 用 商品 。 

(3) 账 务 主题 域 是 指 参 与 人 使 用 商品 过 程 中 所 产生 的 费用 、 账 目 等 ,这 些 账目 的 资费 是 
根据 商品 的 资费 进行 计算 的 。 

CD 市 场 营销 主题 域 主要 包括 市 场 战役 和 渠道 。 市 场 战役 主要 描述 企业 在 市 场 营销 活 
动 中 的 策略 和 效果 ; 渠道 是 企业 利用 营销 的 管理 手段 管理 企业 客户 的 方法 。 

(5) 事件 主题 域 给 用 户 提 供 了 一 个 客户 生命 周期 的 完整 视图 ,记录 客户 与 电信 运营 商 
关系 的 不 同 阶段 。 

(6) 地 域 主题 域 是 指 在 地 理 上 能 被 确定 的 一 块 地 方 ,是 一 个 面 的 概念 ,可 以 是 行政 区 域 
也 可 以 是 电信 的 管理 区 域 。 

通常 情况 下 ,根据 需求 选择 用 户 最 关心 的 主题 域 , 同 时 还 要 兼顾 业务 系统 的 数据 提供 
能 力 。 


3.1.2 逻辑 模型 设计 


本 例 中 ,逻辑 模型 设计 主要 包括 以 下 几 个 方面 。 

1. 选择 数据 源 

构建 面向 电信 和 领域 的 数据 仓库 ,数据 源 主要 是 来 自 于 各 类 业务 以 及 营业 、 账 务 、 计 费 等 
生产 系统 的 数据 ,如 客户 资料 、 通 话 详 单 和 出 账 数 据 等 。 

下 面 分 别 给 出 了 移动 业务 的 客户 资料 表 、 客 户 出 账 表 和 通话 详 单 表 的 常用 字段 。 

(1) 客户 资料 表 的 常用 字段 包括 : 

。 客户 标识 ; 

。 手机 号 码 ; 

。 客户 类 别 ; 

。 客户 姓名 ; 

。 证件 类 型 ; 

。 客户 证 件 号 码 ; 

。 归属 局 ; 

。 付费 方式 ; 

。 和 网 日 期 。 

(2) 出 账 表 的 常用 字段 包括 : 

。 客户 标识 ; 

。 基本 月 租 费 ; 

。 增值 服务 费 ; 

。 本 地 通话 费 ; 

。 长 途 通话 费 ; 

。 国内 漫游 通话 费 ; 


SHMOMS iow 


o 
U3 


原理 及 应 用 


。 国 际 漫游 通话 费 ; 


。 短信 费 ; 
。 总 费用 。 


(3) 通话 详 单 表 的 常见 字段 包括 : 


。 呼叫 类 型 ; 
* IMSI 号 ; 
。 主 叫 号 码 ; 
。 被 叫 号 码 ; 
。 通话 开始 时 间 ; 
。 通话 时 长 ; 
。 通话 位 置 ; 
。 漫游 类 型 。 
2. 确定 数据 粒度 


数据 仓库 设计 中 最 重要 的 步骤 之 一 是 确定 数据 粒度 。 


1) 选择 数据 粒度 


由 于 电信 和 运营 商业 务 系统 的 数据 量 很 大 ,例如 某 省 一 天 的 GSM 业务 详 单数 据 量 就 
ik 1. 2GB 左右 ,客户 账单 的 数据 量 每 个 月 也 有 2000 多 万 条 ,同时 对 详 单数 据 保留 周期 要 
求 在 线 保存 3 个 月 ,其 他 如 客户 资料 ,账单 和 欠 费 等 详细 数据 的 保留 周期 更 长 ,因此 数据 
仓库 系统 应 采用 多 重 粒度 ,使 数据 在 当前 细节 级 和 各 个 汇总 级 都 存在 ,以 满足 用 户 的 不 


同 查询 需求 。 


对 于 客户 资料 ,由 于 是 属于 增长 较为 缓慢 的 信息 ( 随 着 客户 数量 的 增长 ,客户 业务 信息 
的 变更 表 会 增长 ) ,可 以 使 用 单一 数据 粒度 。 如 果 客 户 数量 很 大 ,每 个 月 生成 一 张 客户 资料 
表 将 浪费 大 量 的 空间 ,因为 只 有 客户 资料 变化 或 新 增 客户 , 才 需 要 修改 原先 的 客户 资料 表 ， 
采用 增加 一 个 “当前 标志 ”字段 ,标识 客户 的 当前 信息 ,并 选择 “数据 变更 日 期 "作为 时 间 字 


段 ,如 图 3.2 所 示 。 


对 于 客户 出 账 信息 ,每 月 每 个 客户 标识 只 在 账 务 信息 中 对 应 一 条 记录 ,本 身 就 具有 一 定 


的 综合 性 ,可 以 采用 单一 数据 粒度 ,如 图 3. 3 所 示 。 


客户 资料 表 


客户 标识 
手机 号 码 
客户 类 别 
客户 姓名 
证 件 类 型 => 
客户 证 件 号 码 
归属 局 

付费 方式 

入 网 日 其 


客户 资料 表 


证 件 类 型 
客户 证 件 号 码 
归属 局 

付费 方式 

入 网 日 期 


客户 出 账 表 


月 份 

客户 标识 
基本 月 租 费 
增值 服务 费 

本 地 通话 费 
长 途 通 话费 
国内 漫游 通话 费 
际 漫游 通话 费 
短信 费 

总 费用 


客户 出 账 表 


3.2 使 用 单一 粒度 的 客户 资料 
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Bu 
客户 标识 
基本 月 租 费 
增值 服务 费 

本 地 通话 费 
长 途 通 话费 

内 漫游 通话 费 
际 漫游 通话 费 
短信 费 

总 费用 


图 3.3 使 用 单一 粒度 的 客户 出 账 数据 


通话 详 单数 据 量 最 大 ,对 于 一 个 客户 的 一 次 通话 (无 论 是 主 叫 或 被 叫 ,因为 一 次 通话 实 
际 上 将 生成 主 叫 、 被 叫 两 条 记录 ) ,通话 详 单 中 将 出 现 一 条 通话 记录 ,因此 对 于 一 个 大 型 的 电 
信 公 司 ,其 通话 详 单数 据 量 非常 大 ,所 以 采用 双重 粒度 。 

最 近 3 一 4 个 月 的 通话 详 单数 据 , 保 留 在 数据 仓库 中 ,并 定期 聚合 成 按 月 综合 ,然后 将 细 
节 数 据 导 出 ,为 另外 保存 新 的 细节 数据 腾 出 空间 ,如 图 3.4 所 示 。 


按 月 综合 的 数据 
呼叫 类 型 
IMSIS 
主 叫 号 码 
被 叫 号 码 
通话 开始 时 间 
呼叫 类 型 通话 位 置 
IMSI 号 i 
E 叫 号 码 漫游 类 型 
被 叫 号 码 
通话 开始 时 间 
通话 位 置 呼叫 类 型 
温 游 类 型 Spa 
主 叫 号 码 
被 叫 号 码 
通话 开始 时 间 
| < i 通话 位 置 
3 个 月 之 前 的 漫游 类 型 
细节 数据 最 近 3 个 月 的 
细节 数据 


3.4 使 用 双重 粒度 的 通话 详 单 数据 


2) 选择 粒度 级 别 和 汇总 方式 

对 粒度 级 别 的 选择 主要 根据 用 户 的 分 析 需 求 和 各 个 表 的 数据 量 大 小 决定 。 其 中 用 户 需 
求 主 要 来 自在 需求 分 析 阶 段 获得 的 各 种 用 户 报表 和 对 分 析 需 求 的 描述 资料 。 针 对 不 同 数据 
层次 选择 粒度 级 别 如 下 : 

COD 当前 细节 级 : 保存 业务 系统 的 最 详细 数据 ,不 进行 数据 汇总 。 

(2) 轻 度 综合 级 : 按照 天 和 月 份 汇总 数据 。 其 中 : 话 单数 据 是 按照 天 和 月 份 汇总 一 个 
用 户 的 话 务 数据 ,同时 保存 各 种 话 务 类 型 维度 ,由 于 按照 这 种 方式 汇总 后 的 数据 量 仍 然 很 
大 ,同时 有 对 用 户 的 月 通话 时 长 进行 分 类 的 要 求 。 因 此 ,增加 每 天 和 每 月 每 个 用 户 的 通话 总 
次 数 和 总 时 长 的 汇总 表 ; 账单 数据 是 汇总 一 个 用 户 一 个 月 的 费用 ,去 掉 细 节 表 中 的 最 小 费 
项 ,改变 账单 数据 模式 ,将 用 户 标识 和 账 期 作为 主键 ,把 主要 费 项 作为 字段 加 以 保存 ; 欠 费 
数据 是 按照 天 和 月 份 对 用 户 欠 费 进行 一 次 快照 ,同时 汇总 每 个 用 户 的 欠 费 数据 ; 销 账 数据 
是 按照 天 和 月 份 汇总 用 户 的 销 账 数据 。 

G) 高 度 综合 级 : 高 度 综合 数据 一 部 分 是 对 轻 度 综合 数据 按照 时 间 汇 总 到 年 ,同时 由 
于 需 满足 用 户 的 分 析 需 求 , 带 有 用 户 标识 的 汇总 数据 量 还 是 很 大 ,因此 在 高 度 综合 级 增加 一 
个 不 包括 用 户 标识 的 汇总 数据 以 再 次 减少 数据 量 , 提 高 查询 分 析 的 效率 。 这 部 分 数据 模型 
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通过 对 用 户 已 有 报表 的 指标 分 析 和 用 户 提 出 的 分 析 需 求 确定 。 

3. 设计 数据 模型 

一 般 情况 下 ,ODS 存放 数据 仓库 的 当前 细节 级 数据 ,采用 满足 第 三 范式 的 数据 模型 。 
因为 ODS 的 一 部 分 数据 如 用 户 数 据 、 客 户 数据 等 都 需要 从 接口 中 提取 变化 的 数据 对 表 进行 
更 新 ,因此 采用 满足 第 三 范式 的 数据 模型 ,可 减少 宛 余 ,便于 更 新 。 同 时 还 减少 了 在 向 ODS 
抽取 数据 时 进行 关联 操作 的 次 数 。 另 外 ,由 于 ODS 是 作为 轻 度 综合 级 数据 的 数据 源 ,因此 
为 了 轻 度 综合 级 数据 抽取 的 效率 和 准确 性 ,可 在 ODS 中 适当 引入 宛 余 字 段 。 

在 客户 主题 域 的 轻 度 综合 级 中 对 每 个 客户 的 数据 进行 汇总 ,其 数据 量 很 大 ,例如 某 省 
GSM 业务 的 客户 数 大 约 是 300 万 ,如 果 采 用 星 型 模式 ,由 于 很 多 维度 中 成 员 数 量 很 少 ,同时 
轻 度 综合 级 的 数据 又 不 断 增 加 。 如 果 完 全 采用 星 型 模式 将 造成 数据 大 量 宛 余 ,增加 系统 存 
储 压力 。 因 此 ,对 轻 度 综合 级 数据 采用 星 型 和 雪花 型 模式 的 综合 ,将 用 户 查 询 中 经 常用 到 的 
维度 直接 放 到 事实 表 , 其 他 维度 和 相应 的 维 表 关联 ,这 样 既 可 以 提高 一 定 的 查询 效率 ,同时 
又 不 会 造成 过 多 的 数据 元 余 。 用 户 查 询 时 ,使 用 最 多 的 是 业务 类 型 .客户 所 属地 域 和 套餐 信 
息 等 ,以 及 付费 方式 和 客户 账 务 类 型 等 衍生 字段 ,因此 在 各 个 轻 度 综合 的 事实 表 中 加 入 业务 
类 型 .客户 所 属地 域 套餐 以 及 付费 方式 和 客户 账 务 类 型 ,相应 的 维 表 直接 和 事实 表 关 联 , 其 
他 维 表 需 要 和 用 户 维 表 关 联 。 轻 度 综合 级 的 数据 模式 如 图 3.5 所 示 。 


GSM 用 户 基本 业务 日 使 用 

y 型 维 表 | 

业务 类 型 维 表 统计 时 间 GM 用 户 家 

承载 网 类 型 客户 标识 Emu 

智能 网 类 型 kei dean 

y Ho 本 入 网 时 长 ! 号 码 

ERN 分 本 业务 类 型 业务 类 
业务 标识 号 PL, jun 用 户 类 型 维 表 
中 继 类 型 用 户 所 属地 域 用 户 类 型 编码 
主 被 叫 类 型 入 网 时 长 用 户 类 型 维 主键 

用 户 套餐 维 表 对 方 业务 类 型 NIS 
通话 区 域 统计 时 间 

ph 漫游 类 型 

bee 通话 次 数 

ERRER oed 通话 时 长 
本 地 计 费 时 长 pe i 
长 途 计 费 时 长 |. | 
温 游 计 费时 长 省 编码 
本 地 通话 费 地 市 编码 
长 途 通话 费 地 域 维 编码 
长 途 温 游 费 

账 务 类 型 维 表 话费 优惠 

| GNE 

IRENA LI pics ILE 

账 务 类 型 细 分 编码 入 条 标志 付费 方式 编码 

用 户 账 务 类 型 维 编码 用 户 账 务 类 型 预付 费 类 型 编码 
付费 方式 付费 方式 维 编码 
用 户 所 属地 域 


图 3.5 轻 度 综合 级 的 数据 模型 一 一 星 型 -雪花 型 


对 于 高 度 综合 级 的 数据 ,部 分 是 对 单一 用 户 一 年 数据 的 汇总 ,因此 也 可 采用 星 型 和 雪花 
型 组 合 的 模式 。 同 时 ,在 高 度 综 合 级 还 有 一 部 分 是 不 包括 用 户 标识 的 汇总 数据 ,数据 量 相对 


较 少 ,因此 可 采用 星 型 模式 以 提高 数据 查询 效率 。 


设计 维 表 时 ,应 遵循 以 下 的 设计 原则 , 即 : 

COD 在 维 表 中 保存 该 维度 的 全 部 层次 信息 ， 
同时 引入 代码 表 , 对 同一 含义 的 字段 进行 统一 
编码 ,保证 不 同 维 表 中 相同 含义 的 字段 具有 统 
一 编码 。 维 表 和 代码 表 的 关系 如 图 3.6 所 示 。 

(2) 维 表 只 对 最 低层 次 编码 ,如 果 两 个 事实 
表 对 同一 维度 汇总 到 不 同 的 层次 , 则 对 于 该 维 
度 , 不 同 的 事实 表 对 应 不 同 的 维 表 。 例 如 ,对 于 
通话 区 域 维 , 其 层次 分 别 为 “省 、 地 市 、 交 换 区 、 
区 县 和 基站 ”, 通 话 情况 的 事实 表 有 两 个 ,其 中 一 
个 在 通话 区 域 维 的 粒度 是 基站 ,而 另 一 个 在 通话 


区 域 维 的 粒度 是 地 市 , 则 这 两 个 事实 表 分 别 对 应 两 个 不 同 的 通话 区 域 维 表 , 如 图 3.7 所 示 。 


基站 


基站 维 表 代码 
省 代码 


Fre 


移动 业务 使 用 
统计 时 间 
地 市 代码 
受理 点 类 型 
基站 代码 
付费 方式 代码 
呼叫 类 型 代码 
epe 
用 户 账 务 类 型 代码 
用 户 资费 类 型 
移动 套餐 类 型 代码 
移动 业务 类 型 代码 


省 分 公司 编码 


省 分 公司 编码 
地 市 编码 
地 域 维 编码 


省 分 公司 编码 
省 分 公司 名 称 


图 3.6 维 表 和 代码 表 的 关系 


地 市 
省 代码 
地 市 代码 
地 市 主键 


移动 业务 使 用 汇总 
统计 时 间 
地 市 代码 
受理 点 类 型 

通话 地 市 

付费 方式 代码 
PMU 类 型 代码 

话 务 类 型 代码 

户 账 务 类 型 代码 
户 资费 类 型 
移动 套餐 类 型 代码 
动 业务 类 型 代码 
段 代码 

中 继 类 型 代码 

用 户 类 型 代码 

用 户 级 别 编码 

对 方 业务 类 型 代码 
入 网 时 长 分 档 
E 
H 
通 


Imc 


zu 


二 方 付费 方式 
户 数 


话 次 数 
计 费 时 长 
通话 时 


3.7 通话 区 域 维 的 不 同 汇总 级 别 
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原理 及 应 用 


采用 上 述 方式 可 以 避免 在 同一 维 表 中 保存 不 同 层次 的 代码 ,使 维 表 结 构 清 晰 ,同时 
减少 单一 维 表 的 数据 量 。 另 外 由 于 代码 表 的 存在 ,使 得 不 同 粒度 维 表 中 同一 层次 的 代码 
统一 。 

(3) 除了 用 户 维 表 、 客 户 维 表 等 业务 实体 对 应 的 维 表 之 外 , 维 表 的 层次 字段 使 用 统一 的 
命名 方式 ,分 别 为 LnCODE, 其 中 标识 是 第 n 层 编 码 。 采 用 统一 的 命名 方式 便于 对 维 表 
的 统一 维护 。 大 部 分 的 维 表 变化 是 指 增 加 相应 的 维度 取 值 ,对 此 类 变化 主要 是 在 代码 表 和 
维 表 中 增加 相应 的 代码 ,不 会 对 历史 数据 产生 影响 。 

4. 分 割 数据 

数据 分 割 是 指 首先 根据 业务 系统 的 不 同 对 表 进 行 分 割 ,例如 按照 GSM 增值 .数据 和 
VoIP 等 不 同业 务 系统 分 割 数据 ,这 主要 是 基于 各 个 不 同 的 数据 级 别 上 都 有 业务 维 , 同 时 
不 同业 务 除 了 一 部 分 共性 的 数据 外 还 包括 属于 该 业务 系统 特殊 的 信息 ,因此 按照 不 同业 
务 分 割 数据 一 方面 可 以 减少 单 表 的 数据 量 ,同时 可 以 保证 数据 仓库 中 各 个 业务 信息 的 完 
整 性 。 

按照 业务 系统 分 割 数 据 后 ,由 于 话 单 和 出 账 数 据 的 单个 业务 的 数据 量 还 是 很 大 ,因此 将 
话 单 和 出 账 数据 按照 用 户 所 属地 域 再 次 进行 分 割 。 选 择 用 户 所 属地 域 是 因为 各 个 汇总 级 别 
上 都 包括 用 户 所 属地 域 维 ,按照 用 户 所 属地 域 分 割 不 会 对 数据 抽取 产生 影响 。 

5. 划分 表 

对 用 户 表 按照 其 数据 变化 频率 进行 划分 ,大 致 可 划分 为 : 

CD. 比较 稳定 的 字段 ,如 用 户 标 识 、 用 户 号 码 、 用 户 所 属地 域 、 人 网 时 间 、 离 网 时 间 、 用 户 
类 型 和 信用 额度 等 。 

(2) 经 常 变化 的 字段 ,如 用 户 套 餐 .用 户 状态 和 停 开 机 时 间 等 。 

由 于 用 户 套 餐 在 用 户 查 询 中 经 常 使 用 ,同时 由 于 是 每 天 对 业务 系统 的 用 户 表 进行 抽取 ， 
因此 对 话 务 信息 而 言 有 可 能 丢失 用 户 当时 通话 时 的 套餐 信息 ,因此 将 用 户 套餐 作为 元 余 字 
段 放 在 各 个 汇总 的 事实 表 中 。 最 终 将 用 户 信 息 划 分 为 两 张 表 , 即 : 

CD 用 户 基本 信息 表 包 括 用 户 标 识 、 用 户 号 码 、 所 属地 域 、 和 人 网 时 间 、 离 网 时 间 、 用 户 类 
型 ,信用 额度 和 用 户 套餐 等 字段 。 

(2) 用 户 在 网 状态 表 包 括 用 户 标识 、 用 户 套 餐 、 用 户 状 态 和 停 开 机 时 间 等 字段 。 

6. 设计 多 维 模型 

针对 每 个 主题 域 确定 其 所 需 的 维度 和 度量 ,然后 为 每 一 主题 域 定义 关系 模式 ,从 而 形成 
一 个 星 型 模式 ,在 此 基础 上 可 以 生成 多 维 数据 表 ,建立 多 维 模型 。 

以 客户 主题 域 为 例 ,其 维度 的 设计 如 图 3. 8 所 示 ,相应 的 星 型 模式 如 图 3.9 所 示 。 

在 关系 数据 库 中 实现 多 维 模型 即将 多 维 模型 中 的 度量 维度、 事实 和 层次 等 概念 用 关系 
模型 中 的 元 素 实 现 ,其 实现 方式 可 以 概括 为 : 在 关系 模型 中 维 转换 成 维 表 , 事 实 转换 成 事实 
表 , 度 量 转 换 成 事实 表 中 的 一 个 字段 。 维 表 和 事实 表 的 关联 是 通过 将 维 表 的 主键 作为 事实 
表 的 外 键 实现 。 


模型 名 称 : 客户 资料 


模块 功能 : 用 于 客户 数量 的 分 析 以 及 客户 属性 的 分 析 


事实 表 : 客户 资料 事实 表 
度量 : 客户 数量 
数据 粒度 : 


每 个 客户 每 月 计算 一 次 收益 ,事实 表 中 每 条 记录 表示 一 个 客户 的 属性 。 


事实 表 中 存放 1 年 以 内 的 数据 ,超过 10 年 的 数据 按 月 进行 滚动 ,最 初 的 数据 汇总 后 从 事实 表 中 导出 。 


相关 维度 : 

(1) 客户 详细 资料 维 

(2) 客户 性 别 维 

(3) 客户 年 龄 层次 维 

(4) 客户 在 网 时 间 维 

(5) 客户 消费 层次 维 

(6) 客户 信用 度 层次 维 
(7) 是 否 大 客户 维 

(8) 付费 类 型 维 

(9) 地 域 维 

(10) 客户 流失 概率 层次 维 
(11) 客户 挽留 价值 层次 维 
(12) 成 为 大 客户 概率 层次 维 
(13) 客户 价值 层次 维 
(14) 客户 服务 状态 维 


(15) 客户 号 码 维 
图 3.8 客户 主题 域 的 维度 设计 
客户 信息 事实 表 
客户 详细 资料 维 
Cust ID -一 一 Cust ID 
Sex ID 客户 性 别 维 
年 龄 层次 红 - 
Sex ID 
Agelevel ID L e AgeLevel ID 
BeVIP ID 是 否 大 客户 维 
付费 类 型 Sr. 
BeVIP ID 
Paytype ID e PayType ID. 
CustServState ID 客户 服务 状态 维 
客户 在 网 时 间 维 
CustServState_ID 
InServTimeLevel ID “| 一 一 InServTimeLevel ID 
Geo ID 地 域 维 
客户 信用 诬 层次 维 iin 
Geo ID. 
CreditLevel ID. t CreditLevel ID 
PayLevel ID. 消费 层次 维 
客户 流失 概率 层次 维 
PayLevel_ID 
ChurnLevel ID | 一 一 一 一 ChurnLevel ID 
DetainValueLevel ID. 客户 挽留 价值 层次 维 
成 为 大 客户 概率 层次 维 ain ValueLevel | : A 
DetainValueLevel ID 
BeVIPLevel ID t BeVIPLevel ID 
CustValueLevel ID 客户 价值 层次 维 
客户 号 码 维 


CustNumber ID 


3.9 客户 基本 信息 的 星 型 模式 


CustNumber 


DetainValueLevel ID 
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在 使 用 维 表 实现 维 时 ,需要 对 维 的 层次 进行 表示 ,具体 如 下 : 


地 域 维 表 
D 通过 维 表 的 不 同 字段 省 代码 
通过 维 表 的 不 同 列表 示 维 的 不 同 层次 。 例 如 ,地 域 维 的 省 名 称 
层次 为 省 .地 市 和 区 县 ,如 图 3. 10 所 示 。 bios 
2) 通过 表 之 间 的 关联 | eg 
使 用 不 同 的 表 分 别 表 示 维 的 不 同 层次 ,不 同 表 之 间 通 过 ee er pl 


外 键 关联 形成 维 的 层次 。 例 如 上 述 地 域 维 的 层次 可 以 通过 表 


二 图 3. 10 字段 表示 维 的 层次 
之 间 的 关联 表示 ,如 图 3. 11 所 示 。 


省 地 市 区 县 
省 编码 地 市 编码 区 县 编码 
省 名 称 地 市 描述 q 区 县 名 称 
省 维 表 主 键 (pk) eS (fk) 地 市 (fk) 
o Key | (pk) 地 市 主键 (pk) 区 县 主键 (pk) 
B om Key 1 (pk) om Key 1 (pk) 


图 3.11 表 之 间 的 关联 表示 维 的 层次 
3) 通过 关联 字段 
在 维 表 中 加 入 两 个 字段 ,一 个 标识 维 中 的 成 员 , 另 一 个 标识 该 成 员 的 逻辑 父 代 的 成 员 ， 
例如 上 述 地 域 维 的 层次 可 以 通过 关联 字段 表示 ,如 图 3. 12 所 示 。 
上 述 各 种 维度 层次 的 表示 方法 中 ,通过 字段 表示 的 方 


Ce 法 最 为 简单 ,而 且 由 于 查询 时 是 对 单 表 的 查询 ,因此 查询 

I 效率 较 高 。 通 过 不 同 的 表 来 表示 维度 层次 可 以 提取 出 许 
I| de: 多 共用 的 维 表 ,所 高 维 表 的 可 维护 性 ,但 是 由 于 查询 时 需 
Lodo Key T (HO 要 多 次 关联 ,因此 查询 效率 较 低 。 以 上 两 种 方法 对 于 不 均 


[| 衡 和 不 整齐 的 维 而 言 ,都 存在 数据 宛 余 , 需 要 通过 引入 人 

图 3 12 关联 字段 表示 维 的 层次 二 记 员 将 维度 补 齐 ,如 果 维 的 层次 较 多 ,最 终 实现 起 来 数 

据 宛 余 会 很 大 。 而 采用 关联 字段 的 方法 ,可 以 很 好 地 表示 不 均衡 和 不 整齐 的 维度 ,但 是 由 于 

在 查询 时 需要 对 表 进 行 多 次 的 自 关联 操作 ,因此 查询 效率 较 低 ,而 且 采 用 关联 字段 的 维 表 也 
不 易 被 用 户 理解 。 星 型 和 雪花 型 模式 都 可 以 使 用 关联 字段 实现 维 表 。 


3.1.3 物理 模型 设计 


本 例 中 ,物理 模型 设计 主要 包括 以 下 几 个 方面 。 

1. 数据 文件 的 存储 分 配 

由 于 数据 仓库 中 ODS、 轻 度 综合 级 、 高 度 综合 级 以 及 维 表 的 数据 量 和 数据 增长 方式 的 
不 同 ,可 将 其 划分 成 多 个 数据 文件 进行 存储 ,又 因为 话 单 的 数据 量 很 大 同时 数据 增长 也 很 
快 ,因此 在 ODS、 轻 度 综 合 级 和 高 度 综合 级 对 应 的 数据 文件 中 都 指定 几 个 文件 作为 话 单数 
据 专用 的 数据 文件 。 

2. 表 的 索引 

当前 细节 级 中 的 用 户 表 、 欠 费 表 加 入 主键 索引 可 以 提高 数据 更 新 速度 。 对 其 他 的 表 , 可 
以 根据 用 户 经 常 查询 的 方式 以 及 字段 本 身 的 特性 加 入 适当 索引 。 


3. 表 的 物理 分 割 

对 话 务 和 出 账 数据 按照 时 间 进 行 物理 分 割 ,使 得 对 一 天 或 者 一 个 月 数据 的 查询 不 受 数 
据 逐 渐 增 加 的 影响 。 表 的 物理 分 割 依赖 于 DBMS 系统 的 功能 ,例如 使 用 Oracle 提供 的 分 区 
功能 对 数据 进行 物理 分 割 。 

4. 禁止 外 键 关联 

将 数据 模型 中 的 外 键 约束 禁止 变 为 人 工 约 东 , 将 外 键 禁止 是 为 了 保证 数据 抽取 的 效率 ， 
不 删除 外 键 是 为 了 提供 数据 之 间 的 关联 关系 。 


3.1.4 ETL 设计 


本 例 中 ,ETL 设计 主要 包括 以 下 几 个 方面 。 

1. 抽取 数据 到 临时 存储 区 

数据 仓库 的 数据 源 不 是 来 自 终端 客户 每 天 输入 的 数据 ,而 主要 来 自 企 业 OLTP 系统 的 
数据 。 

对 于 一 个 简单 的 面向 电信 和 领域 的 数据 仓库 ,在 将 OLTP 系统 的 数据 加 载 到 数据 仓库 之 
前 , 需 先 将 其 抽取 到 一 个 临时 存储 区 ,并 在 临时 存储 区 进行 数据 清理 和 校 验 工作 , 待 全 部 数 
据 正 确 无 误 后 ,再 加 载 到 数据 仓库 ,以 保证 数据 质量 。 这 是 使 用 临时 存储 区 的 好 处 之 一 。 

临时 存储 区 事实 上 就 是 一 个 数据 库 , 此 数据 库 作 为 数据 仓库 的 数据 源 ,数据 仓库 直接 从 
临时 存储 区 加 载 数据 ,从 而 避 开 OLTP 系统 ,避免 了 OLTP 系统 和 数据 仓库 系统 之 间 处 理 
上 的 冲突 ,避免 了 OLTP 系统 因数 据 抽取 而 影响 其 响应 时 间 。 这 是 使 用 临时 存储 区 的 另 一 
个 好 处 。 

临时 存储 区 和 暂 存 将 要 加 载 到 数据 仓库 的 事实 数据 和 维度 数据 , 它 利用 关系 表 映 射 数据 
仓库 的 星 型 和 雪花 型 模式 。 如 果 数 据 仓 库 是 建立 在 SQL Server 2000 数据 库 之 上 , 则 从 
OLTP 系统 抽取 数据 时 ,必然 会 用 到 存储 过 程 和 脚本 文件 。 

下 面 将 以 时 间 维 数据 、 客 户 维 数据 和 收益 事实 表 数 据 的 抽取 为 例 加 以 说 明 。 

在 SQL Server 2000 中 建立 新 的 数据 库 ,命名 为 临时 存储 区 ,分 别 建 立 客户 维 表 五 一 
维 表 、 十 一 维 表 和 收益 事实 表 , 分 别 如 表 3.1 一 表 3.4 所 示 。 


表 3.1 客户 维 表 

字 段 名 数据 类 型 长 HH 说 Hl 
客户 序号 Int 4 关键 字 , 自 增 
客户 号 Char 4 外 部 关键 字 
客户 姓名 Char 10 不 允许 空 
客户 性 别 Char 2 不 允许 空 

表 3.2 58—55* 

字 段 名 数据 类 型 长 度 说 明 
五 一 序号 Int 4 关键 字 , 自 增 
年 Int 4 不 允许 空 
日 Int 4 不 允许 空 
日 期 时 间 Datetime 8 不 允许 空 
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字 段 名 数据 类 型 长 BH 说 明 
十 一 序号 Int 4 关键 字 , 自 增 
年 Int 4 不 允许 空 
H Int 4 不 允许 空 
日 期 时 间 Datetime 8 不 允许 空 
表 3.4 收益 事实 表 
字 段 名 数据 类 型 长 HE 说 明 
事实 序号 Int 4 关键 字 , 自 增 
客户 序号 Int 4 外 部 关键 字 
消费 金额 Money 8 不 允许 空 
日 期 时 间 Datetime 8 不 允许 空 
实现 数据 抽取 的 存储 过 程 如 下 : 
Create Procedure 客户 主题 抽取 as // 从 客户 表 中 抽取 客户 维 数据 


Select OLTP.. 客 户 表 . 客 户 号,OLTP.. 客 户 表 . 客 户 姓名 ， 
Case OLTP.. 客 户 表 . 性 别 
When '0'Then ' 男 ' 
When '1'Then ' 女 ' 
When 'm'Then ' 男 ' 
When 'f'Then ' 女 ' 
Else OLTP.. 客 户 表 . 性 别 
End, 
Into 客户 维度 表 From OLTP..7 P! 
// 从 收益 表 中 提取 五 一 维 数据 
Select Datepart(YYYY，OLTP.. 收 益 表 . 收益 日 期 时 间 )， 
Datepart(dd，OLTP.. 收 益 表 .收益 日 期 时 间 )， 
OLTP.. 收 益 表 .收益 日 期 时 间 
Into 五 一 维 表 From OLTP.. 收 益 表 
Where Datepart(mm，OLTP.. 收 益 表 . 收益 日 期 时 间 ) = 5 And 
Datepart(dd，OLTP.. 收 益 表 . 收益 日 期 时 间 )> = 1 And 
Datepart(dd，OLTP.. 收 益 表 .收益 日 期 时 间 )<=7 
// 从 收益 表 中 提取 十 一 维 数据 
Select Datepart(YYYY，OLTP.. 收 益 表 . 收益 日 期 时 间 )， 
Datepart(dd，OLTP.. 收 益 表 .收益 日 期 时 间 )， 
OLTP.. 收 益 表 .收益 日 期 时 间 
Into 十 一 维 表 From OLTP.. 收 益 表 
Where Datepart(mm，OLTP.. 收 益 表 .收益 日 期 时 间 ) = 10 And 
Datepart(dd，OLTP.. 收 益 表 .收益 日 期 时 间 )>= 1 And 
Datepart(dd，OLTP.. 收 益 表 .收益 日 期 时 间 )<=7 
// 从 收益 表 中 提取 事实 数据 
Select 
临时 数据 区 .. 客 户 维度 表 . 客户 序号 ，OLTP.. 收 益 表 . 消费 金额 ， 
OLTP.. 收 益 表 .收益 时 间 日 期 
Into 客户 收益 事实 表 From 临时 数据 区 .. 客 户 维度 表 ，OLTP.. 收 益 表 
Where 临时 数据 区 .. 客 户 维度 表 . 员 工 号 = 0OLTP.. 收 益 表 .客户 号 


在 转换 过 程 中 ,假设 OLTP 系统 可 能 的 性 别 集合 为 人 { 男 , 女 片 ,10,1) Um. D JU RTL 
建立 如 下 脚本 : 


/[. SÓOOOOOOOOOOOOOOOOOOOOOOOOOOUOUOOOOOOOOOOOOOOOOOOOOOGB|OE 
// Visual Basic 转换 脚本 
Jð OODOOOOOOOOOOOOOOOOOOOOOOOUUUOOOOOOOOOOOOOOOOOO OO OO 
Function Main() 
If (DTSSource("sex") == "0") 
DTSDestination(" 性 别 ") = "B" 
Else if (DTSSource("sex") == "1") 
DTSDestination(" 性 别 ") = "4" 
If (DTSSource("sex") == "n") 
DTSDestination(" 性 别 ") = "B" 
Else if (DTSSource("sex") == "f") 
DTSDestination(" 性 别 ") = " 女 " 
Main = DTSTransformStat OK 
End Function 


例如 , 源 数据 库 的 客户 表 和 数据 仓库 的 客户 维 表 的 结构 如 表 3. 5 所 示 。 
表 3.5 源 数据 库 的 客户 表 和 数据 仓库 的 客户 维 表 的 结构 


源 数 据 库 的 客户 表 数据 仓库 的 客户 维 表 
客户 识别 码 Char 客户 当前 标志 Int( 标 识 ) 
客户 消费 能 力 SmallMoney( 年 收入 ) 客户 识别 码 Char 
Insert dtm Smalldatetime 客户 消费 能 力 Varchar( 收 入 层次 ) 
Update dtm Smalldatetime 


通过 两 者 的 比较 发 现 客户 消费 能 力 的 数据 类 型 不 一 致 。 前 者 存储 的 是 具体 的 收入 值 ， 
后 者 是 收入 的 层次 ,可 编写 如 下 的 VBScript 脚本 完成 这 一 转换 。 


/[ [| 3334 HOHHHOOOODDUOUOOOOOOOUUOUUOOUOHHOUUUEE 
//Nisual Basic 转换 脚本 
|| EE E YE YEYE NE FE FE EEIE DE DEAE YE FE PE PE E EEDE DEAE OO FE EEIEIE JEJEJE JEFE FE FE OO HO OO OO 
// 将 客户 表 的 yearly income 的 SmallMoney 型 转换 成 客户 维 表 的 Varchar 型 
Function Main() 
Select Case DTSSource("yearly income") 
Case Is« - 10000 
DTSDestination("yearly income") =" $ 10k- " 
Case 10001 to 30000 
DTSDestination("yearly income") =" $ 10k- $ 30k" 
Case 30001 to 50000 
DTSDestination("yearly income") =" $ 30k- $ 50k" 
Case 50001 to 70000 
DTSDestination("yearly income") =" $ 50k- $ 70k" 
Case 70001 to 90000 
DTSDestination("yearly income") =" $ 70k- $ 90k" 
Case 90001 to 110000 
DTSDestination("yearly income") =" $ 90k- $110k" 
Case 110001 to 130000 
DTSDestination("yearly income") =" $ 110k- $ 130k" 
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Case 130001 to 150000 
DTSDestination("yearly income") =" $ 130k- $150k" 
Case else 
DTSDestination("yearly income") =" $ 150k +" 
Main = DTSTransformStat_OK 
End Function 


2. 加 载 数据 到 数据 仓库 
从 数据 源 抽取 数据 到 临时 存储 区 后 ,需要 加 载 数据 到 数据 仓库 ,具体 步骤 如 图 3. 13 所 示 o 


启动 Anaiysis Manager | 


设 定数 据 库 和 数据 源 
建立 数据 库 ， 命 名 为 "电信 模型 ” 


建立 数据 源 ， 连 接 到 “临时 数据 区 "数据 库 


建立 多 维 数据 集 
向 多 维 数据 集 添 加 度量 值 


建立 时 间 维 度 ， 选 择 客户 事实 表 中 的 日 期 
时 间 ， 设 置 年 月 日 ， 建 立时 间 维度 


建立 员工 维度 ， 选 择 客户 维度 表 ， 按 照 客 
户 性 别 、 客 户 姓名 的 维度 级 别 建立 


建立 多 维 数据 集 ， 命 名 为 “客户 收益 集 ” 


设计 存储 和 处理 多 维 数据 集 


选择 存储 模式 ， 多 维 OLAP 


使 用 存储 设计 向 导 设计 存储 


| 


为 多 维 数据 集 创建 分 区 


指定 数据 源 和 事实 数据 表 ， 更 改 事实 数据 
表 为 “客户 收益 事实 表 ” 


选择 数据 切片 ， 选 择 “ 时 间 维度 ” 


建立 分 区 ， 并 命名 


图 3.13 ”加载 数 据 到 数据 仓库 的 具体 步 骏 
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3.2 实例 二 


随 着 数据 仓库 技术 在 金融 服务 业 ( 如 银行 、 保 险 等 )、 电 信 业 、 航 空 业 等 资金 充足 ,信息 化 
起 步 较 早 ,迫切 需要 数据 分 析 等 领域 的 成 功 应 用 。 对 其 他 行业 的 众多 企业 而 言 ,如 何在 现 有 
数据 库 基础 上 构建 数据 仓库 显得 日 益 迫 切 。 在 此 以 某 公 司 的 数据 仓库 建设 为 例 ,介绍 数据 
仓库 从 设计 到 实现 的 完整 过 程 。 


3.2.1 总 体 结构 设计 


1. 设计 原则 

遵循 统一 平台 架构 、 分 阶段 实施 的 原则 ,整个 公司 数据 仓库 和 统计 分 析 系 统 使 用 相同 的 
软 硬 件 平台 ,并 结合 业务 需求 及 业务 现状 情况 ,分 领域 .分 阶段 实施 ,保证 系统 在 将 来 可 以 平 
滑 地 进行 功能 增加 和 规模 扩充 。 在 整个 设计 过 程 中 ,遵循 的 主要 原则 如 下 : 

(1) 系统 实用 原则 ,适应 业务 ,技术 的 发 展 

为 应 对 不 断 发 展 及 变化 的 市 场 环 境 , 公 司 的 业务 结构 .业务 流程 .产品 开发 和 市 场 策略 
也 需要 相应 地 调整 和 优化 , 随 之 而 来 的 是 业务 部 门 数据 需求 的 调整 和 变化 ,相应 的 报表 、 查 
询 .统计 和 分 析 也 会 发 生变 化 。 因 此 数据 仓库 和 统计 分 析 系 统 需要 具有 很 强 的 业务 适应 能 
力 ,能 够 及 时 将 业务 变化 反映 在 报表 ,查询 和 统计 中 。 同 时 , 随 着 新 技术 的 不 断 涌现 ,在 系统 
的 建设 过 程 中 也 会 出 现 新 的 概念 和 技术 ,系统 在 建设 之 前 应 充分 考虑 现 有 技术 及 未 来 技术 
的 发 展 。 

(2) 安全 性 和 可 靠 性 原则 

可 靠 性 方面 ,在 业务 系统 数据 正确 完整 的 前 提 下 ,保证 系统 数据 不 丢失 ,避免 数据 不 一 
致 ; 安全 性 方面 ,在 不 影响 性 能 的 同时 ,采用 根据 业务 需要 ,授权 最 小 的 原则 ,确保 系统 的 内 
部 和 外 部 安全 。 充 分 利用 现 有 网 络 等 环境 资源 ,利用 成 熟 的 图 形 界面 技术 和 经 验 ,保证 用 户 
界面 友好 易于 使 用 、 维 护 简 单 。 为 了 保证 进度 和 质量 ,利用 成 熟 工具 ,遵循 软件 工程 的 
原则 。 

2. 总 体 结构 设计 

总 体 结构 设计 是 对 建立 数据 仓库 系统 的 总 体 描述 , 它 从 宏观 和 整体 的 角度 对 数据 仓库 
系统 的 各 个 组 成 部 分 进行 总 体 设计 ,并 确定 在 设计 过 程 中 遵循 的 总 体 原 则 ,从 而 保证 数 
据 仓库 各 个 组 成 部 分 在 开发 过 程 中 能 够 依据 同样 的 基础 和 标准 ,在 运行 过 程 中 能 够 相互 
配合 。 本 例 中 ,采用 建立 CIF 数据 仓库 和 MD 数据 集 市 相 结合 的 方法 ,以 及 平行 开发 模 
式 搭建 某 公 司 的 数据 仓库 ,其 总 体 结构 如 图 3. 14 所 示 ,分 为 数据 整合 层 ` 数 据 服务 层 和 
信息 展现 层 。 

CD 数据 整合 层 ”主要 完成 从 OLTP 系统 (包含 各 类 数据 源 ,如 ERP .工程 项 目 管理 系 
统 EPMS 和 业务 管理 系统 等 ) 通 过 ETL 工具 将 数据 载 人 数据 仓库 。 某 公司 ERP 采用 的 是 
Oracle. Hl OLTP 数据 源 为 Oracle, 由 于 本 例 中 数据 仓库 采用 Oracle 9i 作为 数据 库 服务 器 ， 
所 以 可 以 直接 通过 建立 数据 库 连接 的 方式 增 量 地 从 OLTP 数据 源 中 抽取 数据 (ETL 采用 
Oracle 存储 过 程 );。 如 果 OLTP 数据 源 不 是 Oracle, 则 需 通过 ODBC 等 方式 抽取 数据 。 
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[see 时 人 局 [ 数据 服务 层 ]| 信息 展现 层 
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> RE J 
ITAS 业务 分 析 人 员 


数据 需求 
图 3.14 某 公司 数据 仓库 的 总 体 结构 


(2) 数据 服务 层 ”主要 完成 用 数据 仓库 的 数据 分 段 存储 。 针 对 现 有 各 业务 系统 进行 数 
据 抽 取 、 清 理 并 有 效 集成 ,按照 主题 进行 组 织 , 并 建立 针对 主题 的 多 维 模型 。 考 虑 处 理 历史 
数据 的 效率 及 数据 仓库 远 期 规划 等 问题 ,业界 通常 将 源 系 统 加 载 到 数据 仓库 中 进行 数据 分 
层 存储 。 在 本 例 中 ,将 数据 服务 层 的 数据 存储 划分 为 如 下 区 域 : 

CD 临时 存储 区 (staging area) 是 为 了 保证 数据 迁移 的 顺利 进行 而 设置 的 增 量 式 的 数据 
存储 空间 , 它 是 业务 系统 原始 数据 进入 数据 仓库 的 缓冲 区 。 需 要 进入 数据 仓库 各 主题 域 的 
数据 首先 直接 快速 传输 到 临时 存储 区 ,然后 再 转移 到 数据 仓库 。 从 业务 系统 (如 ERP、 
CRM, Notes 等 ) 到 临时 存储 区 的 传输 应 避免 进行 复杂 的 数据 处 理 ,以 保证 数据 的 快速 导入 
而 减少 对 业务 系统 造成 压力 。 一 般 地 ,可 以 创建 与 OLTP 系统 实体 结构 相同 的 属性 ,同时 
在 临时 存储 区 中 增加 两 个 属性 : 

。 Source Code 表示 来 源 系统 。 

* Last Modified Date 获得 数据 处 理 时 间 。 

如 果 原 来 的 数据 已 经 具有 上 述 属 性 , 则 需要 在 新 属性 中 增加 dw 后 缀 进行 标识 。 数 据 
成 功 导入 数据 仓库 后 ,应 清空 临时 存储 区 的 数据 。 

@ 操作 数据 存储 区 (Operational Data Store,ODS) 是 为 了 保证 数据 迁移 的 顺利 进行 而 
设置 的 数据 存储 空间 ,需要 进入 数据 仓库 各 个 主题 域 的 数据 从 临时 存储 区 直接 快速 传输 到 
ODS, 再 从 ODS 经 过 清洗 、 转 换 、 映 射 等 复杂 的 数据 处 理 载 人 数据 仓库 。ODS 的 数据 作为 
数据 仓库 系统 数据 存储 。 逻辑 上 ,ODS 可 以 分 为 两 部 分 ,一 部 分 存放 OLTP 系统 的 历史 数 
据 , 这 部 分 需要 重新 考虑 是 否 需要 对 OLTP 的 数据 进行 生命 周期 的 记录 (包括 交易 数据 与 


基础 数据 , 即 缓慢 变化 的 处 理 ); 另 一 部 分 存放 数据 仓库 加 工 的 信息 , 即 ODS 历史 数据 经 过 
整合 后 的 信息 ,这 些 信息 更 加 全 面 地 反映 一 个 主题 域 中 某 一 事物 的 全 貌 。 

© 中 央 数 据 仓 库 是 具有 星 型 或 雪花 型 结构 的 实体 ,包括 事实 实体 (fact entity) 和 维度 
实体 (dimension entity)。 其 中 ,事实 实体 是 对 某 一 事物 (可 能 是 某 笔 交易 、 某 个 项 目 、 某 笔 
到 货 明细 和 某 个 任务 ) 各 方面 信息 的 全 面 描述 ,描述 的 属性 包括 该 事物 各 方面 的 度量 信息 ， 
相关 度量 信息 的 相关 维度 信息 ; 维度 实体 ,此 处 的 维度 是 与 事实 实体 相关 的 维度 信息 ,包括 
很 多 事实 实体 共有 的 维度 信息 ,如 时 间 维 等 ,以 及 某 一 个 事实 实体 专 有 的 维度 信息 。 中 央 数 
据 仓库 需要 能 够 支持 最 细 粒 度 级 别 ,保证 可 以 在 最 细 粒 度 级 别 实现 多 维 分 析 , 即 能 够 同时 支 
持 汇总 以 及 明细 数据 的 多 维 查询 。 

CD 数据 集 市 是 某 一 主题 域 的 专 有 多 维 数据 区 ,实现 某 一 主题 域 的 多 维 查询 。 这 一 部 分 
也 包括 事实 实体 和 维度 实体 ,但 与 中 央 数 据 仓 库 不 同 的 是 数据 集 市 的 事实 实体 和 维度 实体 
都 是 为 某 一 业务 主题 服务 的 。 

(3) 信息 展现 层 是 指 采用 不 同形 式 连接 企业 数据 仓库 ,抽取 不 同 的 数据 ,主要 包括 即席 
查询 ,统计 报表 等 。 本 例 中 ,即席 查询 ,统计 报表 采用 Business Objects 和 Web Intelligence 
作为 客户 端 ,可 以 灵活 地 进行 钼 取 、 切 片 和 旋转 等 多 维 分 析 的 操作 。 


3.2.2 概念 模型 设计 


数据 仓库 概念 模型 设计 的 目的 是 对 数据 仓库 所 涉及 现实 世界 的 所 有 客观 实体 进行 科 
学 ,全 面 地 分 析 和 抽象 ,制定 构建 数据 仓库 的 “蓝图 ”"。 在 概念 模型 设计 中 ,常用 E-R 图 作为 
描述 工具 。E-R 图 中 ,长 方 体 表示 实体 , 即 表示 数据 仓库 的 主题 域 , 框 内 写 上 主题 域 的 名 称 ; 
椭圆 表示 主题 域 的 属性 ,用 无 向 边 把 主题 域 与 其 属性 连接 起 来 ;, 有 向 边 表示 主题 域 之 间 的 
联系 ( 单 向 边 表示 一 对 多 的 关系 ,双向 边 表示 多 对 多 的 关系 ) ,无 向 边 表示 主题 域 之 间 一 对 一 
的 关系 。 在 此 以 质量 绩效 分 析 主 题 为 例 进行 概念 模型 设计 。 

质量 绩效 分 析 主 要 通过 产品 族 、 部 门 等 不 同 角度 对 公司 产品 质量 进行 分 析 , 涉 及 的 主要 
绩效 指标 (Key Performance Indication. KPD £248 ;. 紧急 版 本 发 布 比例 .版 本 测试 不 通过 率 、 
网 上 客户 解决 率 、 研 发 网 上 问题 解决 率 和 保修 期 内 产品 故障 率 等 。 质 量 绩效 分 析 主 题 的 概 
念 模型 如 图 3. 15 所 示 。 


3.2.3 逻辑 模型 设计 


逻辑 模型 设计 是 对 概念 模型 设计 中 确定 的 基本 主题 域 进行 分 析 , 并 详细 定义 。 本 例 中 
逻辑 模型 设计 采用 多 维 模型 ,根据 具体 业务 的 需要 ,设计 为 星 型 .雪花 型 和 星 型 -雪花 型 等 
模式 。 

1. 多 维 模型 设计 

质量 绩效 指标 涉及 相同 的 维度 信息 ,并 且 计 算 方法 相同 ,所 以 可 设计 相同 的 事实 表 实 现 
对 不 同 绩效 指标 的 分 析 。 由 于 质量 绩效 的 研发 产品 维 涉及 产品 线 维 、 产 品 族 维 、 产 品 开发 团 
队 维和 测评 产品 维 ,所 以 质量 绩效 分 析 的 逻辑 模型 采用 雪花 型 ,如 图 3. 16 所 示 。 
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1) 时 间 维 表 
几乎 所 有 的 数据 仓库 都 包括 时 间 维 ,时 间 维 相对 独立 ,变化 较 少 。 本 例 中 时 间 维 表 结 构 
如 表 3.6 所 示 。 


图 3.15 某 公司 质量 绩效 分 析 主题 的 概念 模型 


表 3.6 时 间 维 表 
英文 名 称 中 文 名 称 类 型 备 È 

Date_key 日 期 键 Number Not null 
Actual date 实际 日 期 Datetime Not null 
Week JH Number Not null 
Month H Number Not null 
Quarter 季度 Number Not null 
Year 年 Number Not null 
Effective 状态 (有 效 1, 停 用 0) Number Not null 
Start Week mark 周 开 始 标记 Varchar2(1) Not null 
End_Week_mark 周 结束 标记 Varchar2(1) Not null 
Start Month. mark 月 开始 标记 Varchar2(1) Not null 
End Month mark 月 结束 标记 Varchar2(1) Not null 
Start Year mark 年 开始 标记 Varchar2(1) Not null 
End_Year_mark 年 结束 标记 Varchar2(1) Not null 
ETL_soure_code 源 系统 标识 Varchar2(50) Null 

ETL load mark ETL 加 载 标识 Varchar2(20) Null 

ETL error code ETL 出 错 代 码 Varchar2(20) Null 

ETL loading date ETL 加 载 日 期 Date Null 

ETL update date ETL 更 新 日 期 Date Null 
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原理 及 应 用 


2) 研发 产品 线 维 表 
研发 产品 线 维 表 也 是 大 多 数 数据 仓库 都 需要 用 到 的 基本 维 表 之 一 ,本 例 中 研发 产品 线 
维 表 结 构 如 表 3.7 所 示 。 


表 3.7 研发 产品 线 维 表 


英文 名 称 中 文 名 称 类 型 * o dk 
Seq id 序列 (代理 键 ) Int Not null 
Product_line_dev_id 研发 产品 线 维 ID Number Not null 
Product line dev code 产品 线 编码 Varchar2(20) Not null 
Product_line_name 产品 线 名 称 Varchar2(50) Not null 
Product_line_pre 产品 线 曾 用 名 Varchar2(50) Not null 
Effective 状态 (有 效 1, 停 用 0) Number Not null 
Start_date 起 用 日 期 Date Not null 
End_date 结束 日 期 Date Null 
Level flag 层次 标识 Int Not null 
Par id 父 项 ID Int Not null 
Par name 父 项 名 称 Varchar2(50) Not null 
Par_level 父 项 层次 Int Not null 
ETL_soure_code 源 系 统 标识 Varchar2(50) Null 
ETL_load_mark ETL 加 载 标识 Varchar2(20) Null 
ETL_error_code ETL 出 错 代码 Varchar2(20) Null 
ETL loading date ETL 加 载 日 期 Date Null 
ETL update date ETL 更 新 日 期 Date Null 


值得 注意 的 是 : 

(1) 人 研发 产品 线 维 表 中 缓慢 变化 的 信息 为 产品 线 编 码 和 产品 线 名 称 , 即 随 着 时 间 的 变 
化 产品 线 编码 和 产品 线 名 称 可 能 发 生变 化 。 如 某 固 网 产品 的 产品 线 ,变化 成 终端 固 网 产品 
线 ,所 以 应 保存 原来 的 产品 信息 ,还 要 增加 新 的 产品 信息 。 上 有 具体 处 理 如 下 : 在 维 表 加 载 过 程 
通过 研发 产品 线 维 ID 检测 已 存在 该 产品 线 但 产品 线 名 称 发 生变 化 ,可 采用 将 原来 的 产品 线 
标记 为 无 效 , 即 Effective 二 0, 同 时 修改 End. date 为 当前 日 期 ,新 增 一 条 记录 , 即 Start. date— 24 
前 日 期 .End_date 二 NULL、Effective 二 1。 这 样 可 以 保留 原来 的 产品 线 信息 ,同时 又 增加 了 
新 的 产品 线 信息 。 

(2) 所 有 公共 维 表 应 存储 在 中 央 数 据 仓 库 中 。 

3) 研发 产品 族 维 表 

研发 产品 族 维 表 和 研发 产品 线 维 表 的 关系 是 典型 的 子 表 和 主 表 的 关系 。 考 虑 维 表 维护 
的 简单 性 和 加 载 的 便捷 性 ,对 研发 产品 族 维 表 和 研发 产品 线 维 表单 独 设计 ,而 不 是 合并 在 同 
一 个 维 表 中 ,本 例 中 研发 产品 族 维 表 结构 如 表 3. 8 所 示 。 

值得 注意 的 是 : 研发 产品 族 维 表 中 缓慢 变化 的 信息 为 产品 族 编码 和 产品 族 名 称 , 其 处 
理 方法 与 研发 产品 线 维 相 似 。 其 中 Product line dev id 和 Product. line name 为 该 产品 族 
的 产品 线 信息 ,这样 可 以 很 方便 地 处 理 某 一 产品 族 的 产品 线 信息 ,在 前 台 OLAP 报表 可 以 
很 方便 地 在 研发 产品 线 维 和 研发 产品 族 维 之 间 进 行 向 上 和 向 下 钻 取 。 


表 3.8 研发 产品 族 维 表 


英文 名 称 中 文 名 称 类 型 备 注 
Seq_id 序列 Int Not null 
Prodfamily_dev_id 研发 产品 线 维 ID Number Not null 
Prodfamily_code 产品 族 编码 Varchar2(20) Not null 
Prodfamily_name 产品 族 名 称 Varchar2(50) Not null 
Prodfamily_pre 产品 族 曾 用 名 Varchar2(50) Not null 
Prodfamily_name_en 产品 族 英文 名 Varchar2(50) Not null 
Effective 状态 (有 效 1, 停 用 0) Number Not null 
Start_date 起 用 日 期 Date Not null 
End_date 结束 日 期 Date Null 
Level flag 层次 标识 Int Not null 
Product. line dev id 研发 产品 线 维 ID Int Not null 
Product_line_name 研发 产品 线 名 称 Varchar2(50) Not null 
ETL_soure_code 源 系 统 标识 Varchar2(50) Null 
ETL load mark ETL 加 载 标识 Varchar2(20) Null 
ETL error code ETL 出 错 代码 Varchar2(20) Null 
ETL_loading_date ETL 加 载 日 期 Date Null 
ETL update date ETL 更 新 日 期 Date Null 
4) 其 他 维 表 设 计 
其 他 维 表 的 设计 可 以 参照 研发 产品 线 维 表 和 研发 产品 族 维 表 ,不 再 熬 述 。 


5) 事实 表 设 计 


本 例 中 ,事实 表 主 要 包括 两 类 : 一 类 是 保存 在 中 央 数 据 仓库 的 事实 表 , 这 类 事实 表 存 放 
度量 的 明细 数据 ; 另 一 类 是 保存 在 数据 集 市 的 事实 表 , 这 类 事实 表 存 放 某 一 部 门 或 某 一 领 
域内 的 汇总 数据 。 中 央 数 据 仓库 和 数据 集 市 事实 表 的 物理 结构 有 些 是 一 样 的 ,唯一 区 别 是 
物理 数据 是 分 层 存放 的 。 就 数据 粒度 而 言 , 中 央 数据 仓库 和 数据 集 市 事实 表 的 数据 粒度 也 
是 不 同 的 。 中 央 数 据 仓库 和 数据 集 市 的 事实 表 在 物理 结构 上 有 的 是 完全 不 同 的 ,因为 数据 
集 市 的 数据 可 以 直接 来 源 于 ODS, 而 不 是 中 央 数 据 仓库 ; 就 数据 集 市 的 类 型 而 言 ,数据 集 市 
可 以 是 独立 的 和 从 属 的 数据 集 市 。 本 例 中 整个 数据 仓库 的 架构 非常 灵活 ,综合 了 CIF 数据 
仓库 和 MD 数据 集 市 的 优点 ,可 满足 企业 建立 独立 的 数据 集 市 和 从 
以 事实 表 的 设计 将 从 中 央 数 据 仓库 和 数据 集 市 两 方面 展开 。 

质量 绩效 分 析 事 实 表 结构 如 表 3. 9 所 示 。 


表 3.9 质量 绩效 分 析 事实 表 


属 数据 集 市 的 需求 。 所 


3X X 名称 中 文 名 称 E 型 备 ik 
Seq id 序列 Number Not null 
Date id 日 期 ID Number Not null 
Region_id 区 域 ID Number Not null 
Product id 研发 产品 ID Number Not null 
Department_id 部 门 ID Number Not null 
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续 表 

英文 名 称 中 文 名 称 类 型 备 注 
KPI code KPI 编码 Varchar2(10) Not null 
Prodfamily name en 产品 族 英文 名 Varchar2(50) Not null 
YTD KPI valuenumber 上 年 同期 KPI 值 Number 
KPI value number KPI 值 Number Not null 
Period level 日 期 层次 Varchar2(10) Not null 
KPI type KPI 类 型 Varchar2(20) Not null 
KPI Factorl KPI 4T 1 Number Not null 
KPI Factor2 KPI 分 子 2 Number Not null 
KPI Factor3 KPI 分 母 1 Number Not null 
KPI_Factor4 KPI 分 母 2 Number Not null 
YTD KPI factorl 上 年 同期 KPI 分子 1 Number Not null 
YTD KPI factor2 上 年 同期 KPI 分 子 2 Number Not null 
YTD KPI factor3 上 年 同期 KPI 分 母 1 Number Not null 
YTD KPI factor4 上 年 同期 KPI 分 母 2 Number Not null 
ETL_source_code 源 系 统 标识 Varchar2(50) Null 
ETL load mark ETL 加 载 标识 Varchar2(20) Null 
ETL error code ETL 出 错 代码 Varchar2(20) Null 
ETL loading date ETL_ 加载 日 期 Date Null 
ETL update, date ETL 更 新 日 期 Date Null 


该 事实 表 在 中 央 数 据 仓 库 和 数据 集 市 可 保持 相同 的 物理 结构 ,但 数据 集 市 的 数据 是 对 
中 央 数据 仓库 中 数据 的 聚合 和 汇总 。 

6) ODS 层 数 据 结 构 

ODS 层 数据 结构 见 表 3. 10。 


表 3.10 ODS 层 数据 结构 


ODS 表 名 源 表 名 称 


ODS EXP CONSIGNMENT ORDER 


EXP CONSIGNMENT ORDER 


ODS EXP. TRAFFIC PLAN 


EXP TRAFFIC PLAN 


ODS EXP TRAFFIC PLAN ODER 


EXP TRAFFIC PLAN ODER 


ODS RCV. TRANSACTIONS 


RCV TRANSACTIONS 


ODS RCV SHIPMENT LINES 


RCV SHIPMENT LINES 


ODS RCV SHIPMENT HEADERS 


RCV SHIPMENT HEADERS 


ODS PO VENDORS 


PO VENDORS 


ODS PO HEADERS ALL 


PO HEADERS ALL 


ODS MTL SYSTEM ITEM B 


MTL SYSTEM ITEM B 


ODS HR ALL ORG UNITS 


HR ALL ORG UNITS 


ODS IBS HKBOXLIST DETAIL 


IBS HKBOXLIST DETAIL 


ODS IBS HKSENDLIST MASTER 


IBS HKSENDLIST MASTER 


ODS IBS HKSENDLIST DETAIL 


IBS HKSENDLIST DETAIL 


ODS IBS CORPINF 


IBS CORPINF 


ODS IBS TRUCKCODE 


IBS TRUCKCODE 


续 表 


ODS 表 名 源 表 名 称 
ODS IBS HKSHIPREC DETAIL IBS HKSHIPREC DETAIL 
ODS T PUB DEPT T PUB DEPT 
ODS T PRODUCT T PRODUCT 
ODS T REGION T. REGION 
ODS T ORDERS T ORDERS 
ODS T ACP INFO T ACP INFO 


7) 临时 存储 层 数据 结构 
临时 存储 层 数据 结构 见 表 3. 11. 


表 3.11 临时 存储 层 数 据 结构 


ODS 表 名 取 数 方式 | 源 系 统 名 称 源 表 名 称 
EXP_CONSIGNMENT_ORDER | 每 天 增 量 EBS EXP CONSIGNMENT ORDER 
EXP. TRAFFIC PLAN 每 天 增 量 EBS EXP_TRAFFIC_PLAN 
EXP_TRAFFIC_PLAN_ODER 每 天 增 量 ERP EXP TRAFFIC PLAN ODER 
RCV. TRANSACTIONS 每 天 增 量 ERP RCV_TRANSACTIONS 
RCV_SHIPMENT_LINES 每 天 增 量 ERP RCV_SHIPMENT_LINES 
RCV_SHIPMENT_HEADERS 每 天 增 量 ERP RCV_SHIPMENT_HEADERS 
PO_VENDORS 每 天 增 量 ERP PO_VENDORS 
PO_HEADERS_ALL 每 天 增 量 ERP PO_HEADERS_ALL 
MTL SYSTEM ITEM B 每 天 增 量 ERP MTL SYSTEM ITEM B 
HR ALL ORG UNITS 每 天 增 量 ERP HR_ALL_ORG_UNITS 
IBS_HKBOXLIST_DETAIL 每 天 增 量 ERP IBS_HKBOXLIST_DETAIL 
IBS HKSENDLIST MASTER 每 天 增 量 ERP IBS HKSENDLIST MASTER 
IBS HKSENDLIST. DETAIL 每 天 增 量 ERP IBS_HKSENDLIST_DETAIL 
IBS CORPINF 每 天 增 量 ERP IBS CORPINF 
IBS TRUCKCODE 每 天 增 量 ERP IBS TRUCKCODE 
IBS HKSHIPREC DETAIL 每 天 增 量 ERP IBS_HKSHIPREC_DETAIL 
T_PUB_DEPT 每 天 增 量 ERP T_PUB_DEPT 
T_PRODUCT 每 天 增 量 ERP T PRODUCT 
T REGION 每 天 增 量 ERP T REGION 
T ORDERS 每 天 增 量 ERP T_ORDERS 
T_ACP_INFO 每 天 增 量 ERP T_ACP_INFO 

2. 数据 粒度 设计 


本 例 中 中 央 数 据 仓库 和 数据 集 市 采用 的 是 多 维 模型 ,所 以 数据 粒度 设计 也 是 针对 中 央 
数据 仓库 和 数据 集 市 。 中 央 数 据 仓库 保存 企业 的 业务 明细 数据 ,其 数据 粒度 为 低 粒度 级 (高 
细节 级 ); 数据 集 市 保存 企业 某 一 部 门 或 某 一 主题 的 汇总 或 聚合 数据 ,其 数据 粒度 为 高 粒度 
级 ( 低 细节 级 )。 

W. H. Immon 指出 不 同 数量 级 采用 的 数据 粒度 策略 如 表 2. 1 所 示 , 在 此 数据 粒度 的 选 
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择 借鉴 了 这 一 数据 粒度 设计 策略 。 

质量 绩效 分 析 事 实 表 的 数据 在 5 年 内 可 能 膨胀 到 20000000 字 节 ,所 以 可 考虑 采用 双重 
数据 粒度 ,在 中 央 数 据 仓库 中 事实 表 超 过 5 年 的 明细 数据 可 导出 到 后 备 存储 设备 ,使 中 央 数 
据 仓 库 保存 5 年 内 的 明细 数据 。 其 他 维 表 的 数据 增 量 不 大 ,可 采用 单一 粒度 。 中 央 数 据 仓 
库 的 绩效 分 析 事 实 表 的 数据 粒度 要 达到 产品 层 , 数 据 集 市 的 绩效 分 析 事 实 表 的 数据 粒度 达 
到 产品 族 层 即 可 。 

3. 分 区 设计 

本 例 中 ,整个 数据 仓库 采用 分 层 存 储 。 物 理 上 分 为 四 层 , 即 ODS、 数 据 仓库 数据 仓库 
聚合 和 数据 集 市 。 由 于 目前 的 数据 量 不 是 非常 大 ,因此 还 不 需要 分 区 。 但 是 随 着 数据 量 的 
增加 和 数据 仓库 的 扩展 ,数据 分 区 是 必然 的 ,例如 可 以 按照 时 间 和 地 域 进行 分 区 。 


3.2.4 物理 模型 设计 


本 例 中 ,数据 仓库 物理 模型 设计 是 在 Oracle 9i 数据 库 基 础 上 进行 的 。 

1. 设计 原则 

D 表 结 构 设计 原则 

(1) 列 的 数据 类 型 

。 数据 类 型 建议 使 用 Number 型 ,一般 不 推荐 使 用 Integer 或 Float 型 。 

。 如 果 数 据 类 型 为 字符 型 ,一 般 不 要 使 用 Char 型 ,建议 使 用 Varchar2 型 。 

。 一 般 情 况 下 ,尽量 避免 使 用 Type、LONG、BLOB 和 CLOB 等 类 型 。 

。 如 果 源 系统 为 非 Oracle 数据 库 , 如 果 数 据 类 型 在 Oracle 中 没有 直接 对 应 的 数据 类 

型 ,参考 Oracle 手册 选择 相近 的 数据 类 型 。 

(2) 列 的 长 度 

如 果 源 系统 的 字符 集 和 数据 仓库 的 字符 集 不 一 致 ,需要 考虑 调整 Varchar2 的 长 度 。 如 
果 源 系统 的 中 文 存储 方式 为 两 个 字 节 存储 一 个 中 文字 符 ,数据 仓库 中 表 的 长 度 应 扩大 (建议 
3 倍 ) 。 如 果 扩 大 3 倍 后 超过 4000 FH ,统一 定义 为 4000 FH. 

(3) PCTUSED 和 PCTFREE 参数 

根据 不 同 的 要 求 , 表 可 以 分 为 三 类 : 基本 没有 更 新 .少量 更 新 和 大 量 更 新 。 临 时 存储 区 
的 表 基 本 属于 没有 更 新 的 类 型 ,每 次 插入 新 数据 先 对 表 进 行 Truncate, 不 做 更 新 和 删除 操 
E. ODS 和 中 央 数 据 仓 库 的 表 大 部 分 属于 少量 更 新 的 类 型 ,以 Insert 为 主 ,少量 更 新 。 数 
据 集 市 的 表 属 于 大 量 更 新 的 类 型 ,主要 是 汇总 、 更 新 和 删除 操作 较 频繁 。 根 据 不 同类 型 ， 
PCTUSED 和 PCTFREE 参数 建议 如 下 : 

。 基本 没有 更 新 PCTUSED-—90.PCTFREE-0 

。 少量 更 新 PCTUSED=80,PCTFREE=10 

。 大 量 更 新 PCTUSED- 70, PCTFREE-— 20 

(4) PARALLEL 参数 

为 了 提高 性 能 ,可 以 考虑 使 用 PARALLEL 参数 ,语法 为 PARALLELCDEGREE n) 2 
应 该 与 表 空 间 的 数据 文件 数量 一 致 。 如 果 表 空间 的 数据 文件 为 5 个 ,设置 为 PARALLEL 
(DEGREE 5)。 由 于 使 用 并 发 方式 需要 较 多 的 系统 资源 ,建议 在 需要 提高 性 能 时 才 使 用 ,一 


般 情况 不 建议 使 用 ,设置 为 NOPARALLEL 即 可 。 


(5) LOGGING 参数 


数据 仓库 中 一 般 不 需要 进行 Log 处 理 , 设 置 为 NOLOGGING 即 可 。 


(6) 键 设置 


在 数据 仓库 表 的 设计 中 ,不 建议 为 表 创建 主键 或 外 键 ,如 果 需 要 进行 约束 ,使 用 唯一 索 
引 或 程序 逻辑 等 方式 代替 主键 或 外 键 。 如 果 必 须 创 建 主键 ,在 定义 主键 时 先 创建 唯一 索引 ， 
再 创建 主键 ,不 要 直接 创建 主键 。 


CD 表 空 间 参 数 


表 空 间 参 数 务必 和 Schema 的 缺 省 表 空 间 一 致 , 且 不 要 与 索引 共用 表 空 间 。 


(8) 表 存 储 人 参数 


表 的 初始 大 小 建议 设置 为 预计 大 小 的 1/5 1/3 ,扩展 参数 可 以 不 设置 。 


2) 表 物 理 设 计 原 则 


表 物 理 设计 原则 如 表 3. 12 所 示 。 


设 计 项 


53.12. 表 物 理 设 计 原则 
内 容 


索引 PCTFREE 参数 


索引 PCTFREE 建议 为 30 


索引 PARALLEL 和 LOGGING 


索引 PARALLEL 和 LOGGING 与 表 的 相关 参数 设置 原则 相同 


索引 存储 参数 


建议 初始 设置 为 预计 大 小 的 1/3 


在 数据 仓库 中 ,有 时 需要 设置 位 图 索引 ,一 般 不 建议 使 用 ,使 用 前 先 


reum 综合 评估 影响 
创建 脚本 表 和 索引 的 创建 脚本 必须 包括 Schema, 指 定 完整 参数 ,不 要 遗漏 表 
空间 参数 
2. 物理 模型 设计 


1) 临时 存储 区 的 物理 模型 设计 


(1) Schema list 


STAGE, 数 据 表 空 间 : STAGEA ,索引 空间 : STGNDX。 


(2) 表 结 构 和 索引 


临时 存储 区 中 表 结 构 基本 和 源 系 统 对 应 表 一 致 , 表 名 一 般 相同 ,可 参考 迪 辑 模型 设计 中 
临时 存储 区 的 数据 结构 。 一 般 情况 下 临时 存储 区 的 表 不 使 用 索引 。 


2) ODS 的 物理 模型 设计 


(1) Schema 表 


ODSML ,数据 表 空 间 : ODSMLDAT, 索 引 空 间 : ODSMLNDX。 


(2) 表 结 构 和 索引 


ODS 的 表 结 构 和 临时 存储 区 的 表 结 构 基 本 一 致 ,可 参考 逻辑 模型 设计 中 ODS 的 数据 


结构 


(1) Schema 表 


3) 中 央 数据 仓库 的 物理 模型 设计 


BLML ,数据 表 空 间 : BLOMDAT ,索引 空间 : BLOMNDX。 
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(2) 表 结 构 和 索引 

对 于 缓慢 变化 维 ,要 为 所 有 缓慢 变化 的 列 建立 唯一 索引 。 

4) 数据 集 市 的 物理 模型 设计 

(1) Schema X 

DMML ,数据 表 空 间 : DMMLDAT ,索引 空间 : DMMLNDX., 

(2) KPI 事实 表 结 构 和 索引 

数据 集 市 的 KPI 事实 表 由 于 更 新 较 多 , PCTUSED 一 70, 索 引 PCTUSED 要 求 与 表 的 
一 至 


3.2.5 数据 清洗 设计 


为 了 保证 数据 仓库 的 数据 质量 ,对 正式 进入 数据 仓库 的 数据 必须 采用 有 效 的 方式 进行 
检查 。 如 前 所 述 ,通常 数据 清洗 可 购买 专用 工具 ,也 可 以 通过 编码 实现 。 本 例 中 ,采用 PL/ 
SQL 编程 对 ODS 的 数据 进行 清洗 ,由 于 数据 仓库 中 数据 质量 涉及 方方面面 的 问题 ,在 此 着 
重 曾 述 接口 数据 的 检查 ,从 而 解决 数据 仓库 垃圾 进 , 垃 圾 出 ”的 问题 。 

1. 清洗 内 容 

本 例 中 数据 源 主要 来 自 ERP 和 其 他 管理 信息 系统 ,涉及 的 清洗 内 容 包 括 : 

(1) 实体 完整 性 检查 。 如 研发 产品 维 中 的 产品 代码 不 能 为 空 ,产品 的 状态 只 能 为 1 或 
0, 不 能 为 空 等 。 

(2) 参照 完 整 性 (referential integrity) 检 查 。 如 研发 产品 族 维 表 中 的 产品 线 编码 是 研 
发 产品 线 维 表 的 外 键 。 

(3) 业务 规则 的 检查 。 如 产品 返回 率 的 返回 日 期 必须 大 于 产品 的 发 货 日 期 。 

2. 清洗 规则 设计 

数据 清洗 逻辑 模型 如 图 3. 17 所 示 , 其 中 表 CHK_RULE_DEF、 表 CHK_TABLE_ 
RULE DEF,X CHK FIELD RULE DEF 和 表 CHK REFERENCE KEY 用 来 保存 数据 
清洗 所 用 的 元 数据 ,数据 清洗 元 数据 是 在 程序 中 创建 初始 脚本 实现 的 。 通 过 元 数据 定义 
可 以 灵活 驱动 多 种 数据 清洗 规则 。 表 CHK. CHECK. STATUS, X CHK EXCEP LOG 
和 表 CHK ERROR LOG 用 来 保存 数据 清洗 程序 的 执行 状态 和 执行 每 项 清洗 规则 的 检 
查 结果 。 


3.2.6 ETL 设 计 


完成 上 述 设计 , 即 完成 了 搭建 存储 企业 数据 的 “仓库 ,但 真正 发 挥 所 搭建 “仓库 ”的 作 
用 ,必须 为 其 装 和 大量 有 价值 的 数据 。 通 常 企业 数据 源 的 数据 格式 存在 很 大 的 差异 ,为 了 保 
证 数据 仓库 的 数据 完整 性 ,ETL 实现 数据 的 抽取 、 转 换 、 清 洁 和 装载 ,最 终 利 用 分 析 工 具 实 
现 数 据 分 析 , 支 持 企业 经 营 决策 。 

本 例 中 ,ETL 工具 采用 CA 公司 的 Advantage Transformer Script Manager2. 0( 简 称 
ADT) ,数据 库 为 Oracle 9i。 


CHK RULE DEF 
€& RULE ID 


RULE REF 
RULE DESC 
PROC NAME 
REMARK 


CHK FIELD RULE DEF 


CHK TABLE RULE DEF 


€, TABLE NAME 


MIN NUM ROW 
MAX NUM ROW 
PARPMETERI 
PARPMETER2 
PARPMETER3 
PARPMETER4 


CHK CHECK STATUS 


€ CHK ID 
€ RULE ID 


€, TABLE NAME CHK. REFERENCE KEY 
€ FIELD NAME & REF ID 
FIELD TYPE CHILD TABLE 
NULLABLE CHILD FIELD 
MIN. VAIDE. PARENT TABLE 
MAX. VAIDE PARENT FILED 
BUSINESS KEY 
PARAMEFERI 
PARAMEFER2 
PARAMEFER3 
PARAMEFER4 
1. 数据 抽取 


CHECK DATE 
STATUES 


CHK EXCEP LOG 


TABLE NAME 
ETL SOURCE 
REMARK 


图 3.17 数据 清洗 逻辑 模型 


CHK_ERROR_LOG 
€, ERROR ID 
€ CHK ID(FK) 
€, RULE ID(FK) 


TABLE NAME 


CHK. SQL 
ERROR SQL 


从 外 部 源 系 统 加 载 数据 到 数据 仓库 的 临时 存储 区 ,可 以 通过 SQL * Loader、 外 部 表 导 
人 导出 、PL/SQL 等 方式 加 载 。 如 表 EXP_CONSIGNMENT_ORDER ( 源 系统 为 Oracle 
ERP) 加 载 到 临时 存储 区 ,如 果 源 数据 量 小 于 1G 实现 代码 如 下 : 


procedure sp exp consignment order 


Lv program name varchar2(30) := 


Lv table name 
Lv key namel 
Lv key name2 


Ln keyl 


'sP exp consignment order'; 


varchar2(32) := 'exp consignment order'; 


varchar2(30) := 'ID'; 


varchar2(30) := 'Language' 
Lv key information varchar2(2000) := null; 
exp consignment order. id % type; 

Ln key2 exp consignment order. Language' * type; 


Ln ins counter number :- 0; 
Ln upd counter number := 0; 
Ld start date date; 


Ld end date 


date; 
Ln commit label smallint:- 0; 
C commit rec constant  smallin 


Cusor cur exp consignment order is 


Select id, 


Language 
Swft flag 


-- E WEREA P 


From exp consignment order(Ztb erp 


Where last update date? = Ld start date 
And last update date <= Ld end date 


- commit label 
125000; -- commit rows each loop 


-- dblink 连接 源 系统 
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--- Program Start 
Pkg global.sp exp consignment order(Lv program name) 
Pkg global.sp gb program date('OM', Ld start date, Ld end date); 
Execute immediare 'TRUNCATE TABLE STGDM.exp consignment order'; 
For rec exp consignment order in cur exp consignment order 
Loop 
Begin 
In keyl := rec exp consignment order. id 
In Key2 := rec exp consignment order.Language 
Insert into exp consignment order 
(ID, Language, source lang --- 省 略 部 分 列 ) 
Values 
(rec_exp_consignment_order. id, rec_exp_consignment_order. Language) 
Ln_ins_counter := Ln_ins_counter +1 
Ln commit label := Ln commit label + 1 
End 
If Ln commit label» - C commit rec 
Begin 
Commit; 
Ln_commit_label := 0; 
End if 
End loop 
Commit; 
-- Progarm Complete 
Pkg global.sp gb progarm complete(lv program name,ln upd counter,ln ins counter) 
Exception 
When others then 
--- program Error Raise 
Lv key information := lv table name || :'||lv key namei||'- 'to char(ln key1)||':'||lv. 
key name2 ||'= 'to char(1lv key2); 
Pkg global.sp progarm error raise(lv program name,lv key information); 
End sp exp consignment order 


加 载 临时 存储 区 数据 到 ODS 可 参照 上 面 从 源 系统 到 临时 存储 区 的 加 载 过 程 , 主 要 区 别 
是 如 果 需 要 处 理 Purge/Delete, 应 增加 Purge_delete_Flag 字段 。 


2. 数据 转换 
数据 从 源 系统 加 载 到 临时 存储 区 ,还 要 经 过 一 系列 转换 。Oracle 9i 内 部 数据 转换 主要 
采用 三 种 方式 : 


(1) 使 用 SQL 进行 转换 。 

(2) 使 用 PL/SQL 进行 转换 。 

(3) 使 用 表 函 数 进行 转换 。 

本 例 中 数据 转换 主要 采用 SQL .所 以 主要 介绍 Oracle 9i 使 用 SQL 执行 合并 的 转换 方 
法 。 在 更 新 研发 产品 维 表 Product dev dim 时 , 源 系统 具有 和 Product. dev. dim 相同 的 结 
构 , 可 通过 以 下 代码 实现 。 


Merge into product dev dim pdd 

Using product dev pd 

On(pdd.prod id = pd.prod id) 

When matched then 

Update set 

Pdd.code = pd.code, 

Pdd.name = pd.name 

When not matched then 

Insert 
(product id, product code, product name, product pre,effective,start date 
,end date) 

Values 

(pd.product id, pd. product code, pd. product name, product pre, pd. effective, pd. start date, 

pd. end date) 


3. 数据 清洗 
本 例 中 数据 清洗 依照 前 面 数 据 清 洗 的 设计 方案 , 即 
(1) 创建 清洗 脚本 (脚本 创建 在 ODS) ,实现 代码 如 下 : 


CREATE TABLE CHK RULE DEF ( 


RULE ID NUMBER NOT NULL, 
RULE REF VARCHAR2(10), 

RULE DESC VARCHAR2 (240) , 

IS ENABLED CHAR(1), 

PROC NAME VARCHAR2(60), 

REMARK VARCHAR2 (240) 


) 
/ 
ALTER TABLE CHK RULE DEF 
ADD CONSTRAINT PK CHK RULE MASTER PRIMARY KEY (RULE ID) 


CREATE TABLE CHK TABLE RULE DEF ( 


TABLE NAME VARCHAR2 (30) NOT NULL, 
MIN NUM ROW NUMBER, 

MAX NUM ROW NUMBER, 

PARAMETER VARCHAR2(100), 

PARAMETER2 VARCHAR2(100), 

PARAMETER3 VARCHAR2(100), 

PARAMETERA VARCHAR2 (100) 


(2) 初始 化 清洗 元 数据 ,实现 代码 如 下 : 


—- DELETE DATA 
delete from CHK TABLE RULE DEF; 
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delete from CHK RULE DEF; 
delete from CHK REFERENCE KEY; 
delete from CHK FIELD RULE DEF; 


—- INSERT META DATA FOR DATA CLEARING 

insert into CHK FIELD RULE DEF (TABLE NAME, FIELD NAME, FIELD TYPE, NULLABLE, MIN VALUE, 
MAX VALUE, CHK STRING, BUSINESS KEY, PARAMETERI, PARAMETER2, PARAMETER3, PARAMETER4) 

values ('ACCOUNTS', 'REFERENCE', 'C', 'N', null, null, null, 'Y', null, null, null, null); 

insert into CHK FIELD RULE DEF (TABLE NAME, FIELD NAME, FIELD TYPE, NULLABLE, MIN VALUE, 
MAX VALUE, CHK STRING, BUSINESS KEY, PARAMETER1, PARAMETER2, PARAMETER3, PARAMETER4) 

values ('ACCOUNT CONTRACTS', 'REFERENCE', 'C', 'N', null, null, null, 'Y', null, null, null, 
null); 

insert into CHK FIELD RULE DEF (TABLE NAME, FIELD NAME, FIELD TYPE, NULLABLE, MIN VALUE, 
MAX VALUE, CHK STRING, BUSINESS KEY, PARAMETERi, PARAMETER2, PARAMETER3, PARAMETER4) 

values ('ADDRESSES', 'REFERENCE', 'C', 'N', null, null, null, 'Y', null, null, null, null); 


insert into CHK RULE DEF (RULE ID, RULE REF, RULE DESC, IS ENABLED, PROC NAME, REMARK) 

values (1, '', 'Check proper surrogate key(check business key)', 'N', 'PKG SANITY CHECK.SP CHK 
.BUSINESS KEY', null); 

insert into CHK RULE MASTER (RULE ID, RULE REF, RULE DESC, IS ENABLED, PROC NAME, REMARK) 

values (2, '', 'Check unique of record', 'N', 'PKG SANITY CHECK.SP CHK UNIQUENESS', null); 

insert into CHK RULE MASTER (RULE ID, RULE REF, RULE DESC, IS ENABLED, PROC NAME, REMARK) 


(3) 执行 数据 清洗 程序 ,实现 代码 如 下 : 


CREATE OR REPLACE PACKAGE PKG DATA CHECK AS 


PROCEDURE SP CHK CURRENT IND; 

PROCEDURE SP CHK VALID DATE; 

PROCEDURE SP CHK SURROGATE KEY; 

PROCEDURE SP CHK BUSINESS KEY; 

PROCEDURE SP CHK UNIQUENESS; 

PROCEDURE SP CHK FOREIGN KEY; 

PROCEDURE SP CHK SKELETON RECORD; 

PROCEDURE SP ERRM LOG(P CHK ID NUMBER,P RULE ID NUMBER,P TABLE NAME VARCHAR2, P CHK SQL 
VARCHAR2,P SQL ERRM VARCHAR2) ; 

PROCEDURE SP CHK; -- desc: the check loop 

FUNCTION F GET BUSINESS KEY(P TABLE NAME VARCHAR2) RETURN VARCHAR2; 

PKG SDATE VARCHAR2(10) := TO. CHAR(SYSDATE, 'dd/mm/yyyy') ;/ * today string * / 

TYPE REF CUR IS REF CURSOR; / * Ref Current Type * / 

REPORT APP ID CONSTANT VARCHAR2(20) : = 'GSM'; / * application name * / 

DATA SCHEMA CONSTANT VARCHAR2(30) : = 'DATAPLAT'; / * the data schema * / 

SP SCHEMA CONSTANT VARCHAR2(30) := 'DP RECON'; / * the sanity check schema(not used) * / 

PKGB CHECK ID NUMBER; /* current check id * / 

PKGB RULE ID NUMBER; / * current rule id * / 

DEBUGING BOOLEAN := FALSE; / * debug mode  True:when error accured will output error message 

False: when error accured not output the error message * / 


END PKG DATA CHECK; 


CREATE OR REPLACE PACKAGE BODY pkg data check 
AS 
v. sql LONG; 
FUNCTION f get business key (p table name VARCHAR2) 
RETURN VARCHAR2 
IS 
v return VARCHAR2 (1024); 


CURSOR cur business key (p table VARCHAR2) 
IS 
SELECT field name 
FROM chk field rule def 
WHERE UPPER (business key) = 'Y' 
AND UPPER (table name) = UPPER (p table); 
—- v business key VARCHAR2 (30); 


BEGIN 
v return: - ''; 
OPEN cur business key (p table name); 
LOOP 
FETCH cur business key 
INTO v business key; 
EXIT WHEN cur business key % NOTFOUND; 


IF v return !- '' THEN 
v return:- v return || '|| ", "| |(G TABLE. ' || v business key; 
ELSE 
v return:- '@TABLE. ' || v business key; 
END IF; 
END LOOP; 


CLOSE cur business key; 
RETURN v return; 
EXCEPTION 
WHEN OTHERS THEN 
IF cur business key % ISOPEN THEN 
CLOSE cur business key; 
END IF; 
RETURN ' '; 
END; 


4. 数据 装载 

本 例 中 ,ETL 按照 临时 存储 区 一 ODS 习 中 央 数 据 仓库 一 数据 集 市 的 流程 ,所 有 程序 由 
Scheduler 统一 调度 。 以 质量 绩效 分 析 为 例 ,其 装载 过 程 包括 初始 装载 (initial loading) 和 增 
量 装载 (incremental loading) 两 部 分 。 初始 装载 相对 简单 ,这 里 主要 介绍 增 量 装 载 ， 
图 3. 18 所 示 为 ADT 增 量 装载 的 完整 流程 。 

其 中 : 

e 1 一 5 步骤 是 增 量 调度 程序 总 调度 的 五 个 阶段 。 

。 6,7,8,9 增 量 调度 运行 每 个 阶段 的 运行 状态 有 四 种 (Q/S/C/F) ,其 中 Q(Queued) 表 


SupmBE Mow 


o 
ea 


原理 及 应 用 


Subject Incremental 
Scheduler Start 


程序 执行 队列 中 Queued [= 一 


0 
1 


Staging Aea Schedule 


( 增 量 加 载 ) 


l 6 


Y 
ODS Aea Schedule 


程序 开始 运行 Started 


( 增 量 加 载 ) 7 


17 
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Baseline Aea Schedule 


程序 正常 结束 Completed 


( 增 量 加 载 ) 


3 


1 


Schedule( 增 量 加 载 ) 


Datamart Aea 


4 


! 
OLAP/Cube Schedule 


( 增 量 加 载 ) 程序 异常 结束 Failed 


Subject Incremental 19 
Scheduler End 
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3.18 ADT 增 量 装载 流程 


示 程 序 执行 队列 中 ,SC(Started) 表 示 程 序 开始 运行 ,C(Completed) 表 示 程 序 正常 结 
束 ,F(Failed) 表 示 程 序 异常 结束 。 

程序 运行 的 四 种 状态 保存 在 表 program. reference. table 中 ,调度 程序 判断 表 
program_reference_table 中 各 程序 的 状态 。 

16: 增 量 调度 程序 被 ADT Server 调用 进入 队列 中 ,program_reference_table 表 中 
本 程序 状态 为 Q。 

17: 增 量程 序 进 入 执行 队列 后 被 执行 ,执行 中 program_reference_table 表 中 本 程序 
状态 为 S。 

18: 增 量程 序 执行 完毕 后 ,program_reference_table 表 中 本 程序 状态 为 C, 同 时 进入 
下 一 个 程序 的 执行 。 

19: 当 所 有 的 程序 执行 完毕 后 , 增 量 装载 结束 。 


第 4 章 OLAP 和 OLAM 


由 数据 仓库 的 定义 可 知 数据 仓库 是 面向 决策 支持 的 , 即 面向 各 种 分 析 型 应 用 的 ,如 联机 
分 析 处 理 .数据 挖掘 .商业 智能 (Business Intelligence. BD 和 客户 关系 管理 等 ,数据 仓库 的 数 
据 通过 OLAP 和 DM 后 ,转换 为 信息 ,并 最 终 形成 知识 ,为 科学 决策 提供 支持 。 


4.1 OLAP 


1. EX 

OLAP 是 基于 数据 仓库 的 一 种 数据 分 析 技 术 , 也 是 基于 数据 仓库 的 一 种 软件 工具 。 
OLAP 侧重 于 对 决策 者 和 高 层 管理 人 员 的 支持 ,可 以 根据 分 析 人 员 的 要 求 ,快速 ,灵活 地 实 
现 大 量 数据 的 复杂 查询 ,并 以 一 种 简单 、 直 观 的 形式 展现 查询 结果 。 基 于 数据 仓库 实施 
OLAP, 可 以 帮助 企业 管理 者 掌握 企业 经 营 状况 ,了 解 市 场 需求 ,制定 科学 决策 ,提高 企业 核 
4E JI. OLAP 的 目标 是 满足 决策 支持 或 满足 在 多 维 环境 下 特定 的 查询 和 报表 需求 。 

OLAP 最 早 是 由 关系 数据 库 之 父 E. F. Codd 于 1993 年 提出 的 。 当 时 ,Codd 认为 
OLTP 已 不 能 满足 终端 客户 对 数据 库 查 询 分 析 的 需要 ,SQL 对 大 型 数据 库 进 行 的 简单 查询 
也 不 能 满足 客户 深入 分 析 的 需求 。 客 户 的 决策 分 析 需 要 对 关系 数据 库 进 行 大量 计 算 才能 完 
成 ,而 查询 的 结果 并 不 能 满足 决策 者 的 需求 。 因 此 Codd 提出 多 维 数据 库 和 多 维 分 析 的 概 
念 , 即 OLAP, 

2. 分 类 

根据 数据 存储 方式 的 不 同 ,OLAP 可 分 为 ROLAP(Relational OLAP) ,. MOLAP(Multi- 
Dimensional OLAP) 和 HOLAP (Hybrid OLAP) —3€, ROLAP 是 指 基 于 关系 数据 库 的 
OLAP, 以 关系 数据 库 为 核心 ,以 关系 型 结构 进行 多 维 数据 的 表示 和 存储 。ROLAP 将 多 维 
数据 库 的 多 维 结构 划分 为 两 类 表 : 一 类 是 事实 表 , 存 储 数据 和 维 关键 字 ; 另 一 类 是 维 表 , 即 
对 每 个 维 至 少 使 用 一 个 表 来 存放 维 的 层次 .成员 等 维 的 描述 信息 。 维 表 和 事实 表 通 过 主 关 
键 字 和 外 关键 字 关 联 起 来 ,形成 了 星 型 模式 。 对 于 层次 复杂 的 维 , 为 了 避免 元 余数 据 占 用 过 
多 的 存储 空间 ,可 以 使 用 多 个 表 描 述 , 此 时 星 型 模式 扩展 为 雪花 型 模式 。MOLAP 是 指 基 于 
多 维 数据 组 织 的 OLAP, 以 多 维 数据 组 织 方式 为 核心 , 即 MOLAP 使 用 多 维 数组 存储 数据 。 
多 维 数据 在 存储 中 形成 立方 体 结构 ,在 MOLAP 中 对 立方 体 的 旋转 、 切 块 和 切片 是 产生 多 
维 数据 报表 的 主要 技术 。HOLAP 是 指 基于 混合 数据 组 织 的 OLAP, 如 低层 是 关系 型 的 ,高 
层 是 多 维 的 。 这 种 方式 具有 更 好 的 灵活 性 。 实 际 上 .HOLAP 是 MOLAP 和 ROLAP 的 折 
里。 对 于 常用 的 维和 维 层次 ,在 HOLAP 中 使 用 多 维 数据 表 记 录 , 对 于 用 户 不 常用 的 维和 
数据 ,HOLAP 采用 类 似 于 ROLAP 的 星 型 模式 存储 。 当 用 户 需 要 访问 不 常用 的 数据 时 ， 
HOLAP 就 会 把 简化 的 多 维 数据 表 和 星 型 模式 相 拼 合 , 从 而 得 到 完整 的 多 维 数据 表 。 
HOLAP 多 维 数据 表 中 的 维度 少 于 MOLAP 多 维 数据 表 的 维度 ,数据 存储 容量 也 小 于 
MOLAP 方 式 。 但 是 ,在 数据 存 取 速度 上 HOLAP 低 于 MOLAP。HOLAP 的 主要 性 能 都 


原理 及 应 用 


介 于 MOLAP fll ROLAP 之 间 , 其 技术 复杂 度 高 于 ROLAP 和 MOLAP。 

根据 数据 组 织 方式 的 不 同 ,OLAP 可 分 为 基于 多 维 数据 库 的 OLAPCMD OLAP) 和 基 
于 关系 数据 库 的 OLAP(ROLAP) 两 种 。 前 者 响应 速度 快 、 执 行 效率 高 ,但 由 于 结构 的 局 限 ， 
灵活 性 不 够 。 与 之 相 比 ,后 者 建立 在 现 有 数据 库 ( 数 据 仓库 ) 的 基础 上 ,灵活 性 、 扩 展 性 要 高 
得 多 ,并 且 支 持 大 数据 量 和 高 维 的 能 力也 强 于 前 者 。 因 此 ,虽然 在 响应 速度 .执行 效率 上 差 
一 点 ,仍然 得 到 广泛 应 用 , 现 有 的 OLAP 工具 大 多 基于 后 者 。 

目前 ,针对 OLAP 的 研究 相当 活跃 ,对 OLAP 的 理解 也 不 断 深 入 。 有 人 提出 了 OLAP 更 
为 简洁 的 定义 ,如 Nigel Pendse 提出 的 FASMI(Fast Analysis of Shared Multidimensional 
Information) ,所 采用 的 技术 包括 客户 /服务 器 结构 、 时 间 序 列 分 析 模 型 .并 行 处 理 、 面 向 对 
象 .数据 存储 和 多 线程 技术 等 。 

3. 典型 操作 

OLAP 对 数据 仓库 数据 的 操作 基于 多 维 视图 (或 称 立方 体 )。 对 立方 体 的 典型 操作 包 
括 切片 . 切 块 和 旋转 等 ,如 图 4. 1 所 示 o 


地 成 e "i 


年 份 地 域 
4.1 立方 体 的 典型 操作 


。 切片 是 指 选 定 多 维 数组 的 一 个 二 维 子 集 。 
。 切 块 是 指 选 定 多 维 数组 的 一 个 三 维 子 集 。 
。 旋转 是 指 改 变 一 个 立方 体 显 示 的 维 方向 ,使 人 们 可 以 从 不 同 的 角度 更 加 清晰 、 直 观 
地 观察 数据 。 
此 外 还 包括 一 些 其 他 操作 ,例如 : 
。 上 卷 是 指 沿 某 一 个 维 的 概念 分 层 向 上 归 约 ,并 且 通 过 维 归 约 ,在 立方 体 上 进行 聚集 。 
。 下 钻 是 上 卷 操 作 的 道 操作 ,由 不 太 详细 的 数据 到 更 详细 的 数据 。 
* 钻 取 是 指 对 多 个 事实 表 进 行 查询 。 
。 钻 透 是 指 对 立方 体操 作 时 ,利用 数据 库 关 系 , 钻 透 立方 体 的 底层 ,进入 后 端的 关 
系 表 。 
4. 主要 特点 
OLAP 是 数据 仓库 的 分 析 展示 工具 ,建立 在 数据 多 维 视图 的 基础 上 。 主 要 特点 一 是 在 
线 (Online) ,体现 为 对 用 户 请 求 的 快速 响应 和 交互 式 操作 ; 二 是 多 维 分 析 , 这 也 是 OLAP 技 
术 的 核心 所 在 。 
OLAP 主要 通过 多 维 方 式 实现 数据 分 析 、 查 询 和 报表 ,不 同 于 传统 的 OLTP。 首 先 ， 
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OLTP 主要 面向 公司 员工 ,OLAP 则 主要 面向 公司 领导 层 ; 其 次 ,OLTP 主要 完成 用 户 的 事 
务 处 理 , 其 数据 基础 是 操作 型 数据 库 , 如 民航 订 票 系统 .银行 储蓄 系统 等 ,通常 需要 进行 大 量 
的 更 新 操作 ,同时 对 响应 时 间 要 求 较 高 。 而 OLAP 是 以 数据 仓库 或 数据 多 维 视图 为 基础 的 
数据 分 析 处 理 , 是 针对 特定 问题 的 联机 数据 访问 和 分 析 ,一 般 不 进行 数据 修改 只 是 查询 ,其 
应 用 主要 是 分 析 客 户 的 当前 及 历史 数据 以 辅助 决策 ,典型 的 应 用 包括 对 银行 信用 卡 风险 的 
分 析 与 预测 公司 市 场 营销 策略 的 制定 等 ,主要 是 进行 大 量 的 查询 操作 ,对 响应 时 间 的 要 求 
不 太 严 格 。 

5. 实现 途径 

OLAP 实现 通常 采用 三 层 客户 /服务 器 (Client/Server,C/S) 结 构 。 第 一 层 是 数据 仓库 
服务 器 ,实现 与 基层 运营 的 数据 库 系 统 的 连接 ,完成 数据 的 一 致 性 和 共享 ; 第 二 层 是 OLAP 
服务 器 ,根据 最 终 服 务 请 求 分 解 成 OLAP 的 各 种 操作 ,并 使 用 数据 仓库 中 的 数据 完成 这 些 
操作 ; 第 三 层 是 前 端 展 现 工 具 , 用 于 将 OLAP 服务 器 的 处 理 结 果 以 直观 的 方式 ,如 多 维 报 
表 、 饼 图 和 三 维 图 等 展现 给 最 终 用 户 。 

6. 评价 标准 

1993 4E, E. F. Codd 提出 了 关于 OLAP 的 12 条 评价 标准 , 旨 在 加 深 对 OLAP 的 理解 ， 
后 来 扩充 到 18 条 。 对 于 设计 数据 仓库 以 及 使 用 OLAP 的 用 户 而 言 , 理 解 这 些 标准 是 十 分 
必要 的 。 

18 条 准则 具体 如 下 : 

准则 1 多 维 性 ,能 对 多 维 数据 进行 切片 . 切 块 和 旋转 等 操作 。 

准则 2 直观 性 ,能 为 用 户 提供 直观 、 易 用 的 数据 操作 。 

准则 3 可 访问 性 ,OLAP 以 合适 的 方式 存储 数据 ,便于 用 户 访 问 。 

准则 4 解释 性 批 处 理 ,在 OLAP 中 常 由 OLAP 引擎 或 服务 器 上 存储 立方 体 的 混合 工 
具 实 现 。 

准则 5 OLAP 分 析 模 型 ,在 高 层 获取 OLAP 所 支持 的 分 析 数 据 ,包括 静态 描述 性 报 
告 . 解 释 性 分 析 、 假 设 性 分 析 和 预测 性 分 析 等 。 

准则 6 客户 -服务 器 结构 性 ,用 户 通 过 客户 端 与 服务 器 的 松散 耦合 实现 OLAP。 

准则 7 透明 性 或 开放 性 ,OLAP 及 其 数据 源 对 用 户 的 透明 和 开放 。 

准则 8 多 用 户 性 ,要 求 OLAP 在 实际 应 用 中 保证 数据 的 完整 性 和 安全 性 ,并 能 够 进行 
数据 的 并 发 处 理 。 

准则 9 处 理 非 正规 数据 ,要 求 系统 满足 " 强 聚 合 , 弱 耦合 "的 标准 。 

准则 10 存储 OLAP 结果 ,要 求 将 决策 分 析 和 数据 源 分 开 。 

准则 11 提取 丢失 值 , 是 系统 处 理 空 值 的 一 种 方式 。 

准则 12 ”处 理 丢 失 值 , 要 求 OLAP 引擎 忽略 已 经 提取 的 丢失 值 。 

准则 13 ”弹性 报告 ,要 充分 反映 数据 的 多 维特 征 , 具 有 较 强 的 灵活 性 。 

准则 14 一致 性 报告 , 即 要 求 OLAP 能 够 为 用 户 提 供 时 间 可 预计 的 报告 。 

准则 15 ”对 物理 层 的 自动 调整 ,其 为 关系 模型 的 标准 。 

准则 16 通用 维 , 即 在 结构 和 操作 能 力 方 面 完 全 一 致 的 维 。 

准则 17 无 限 维 与 聚合 层 ,OLAP 维 数 不 应 该 小 于 15, 且 在 任意 路 径 建立 任意 多 个 聚 
合 层次 ,给 定 路 径 的 概括 级 数据 也 是 有 限 的 。 
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准则 18 无 限制 跨 维 操作 ,要 求 能 够 在 维 之 间 进 行 符号 操作 ,而 不 仅仅 是 对 可 测量 数 
据 的 操作 。 
上 述评 价 标准 仍 存在 较 大 争议 ,例如 第 16 条 除了 时 间 维 ,多 数 维 都 有 自己 的 特性 ; 而 
第 17 条 在 现实 中 很 难 实现 ,否则 会 导致 数据 在 有 限 空间 内 急剧 膨胀 。 
7. 主流 工具 
目前 ,市 场 上 主流 的 OLAP 及 前 端 展 现 产 品 几乎 都 是 在 1993 年 之 前 出 现 的 ,有 的 甚至 
已 有 三 十 多 年 的 历史 , 如 Cognos (PowerCenter), Hyperion (Essbase) , f $k (Analysis 
Service) , Business Object 以 及 MicroStrategy 等 几 大 厂商 的 产品 。 
综合 业界 多 方面 观点 ,在 此 将 对 Cognos, Hyperion 和 Business Object 这 三 家 厂商 的 产 
品 在 整体 解决 方案 .OLAP 工具 .系统 稳定 性 以 及 集成 等 方面 进行 综合 比较 。 
1) Cognos 8 
Cognos 8 解决 方案 在 一 个 产品 中 ,一 种 Web 构架 上 ,基于 企业 所 有 数据 源 , 面 向 所 有 用 
户 提供 完整 的 信息 处 理 与 展现 功能 ,包括 了 即席 分 析 功 能 ,查询 功能 ,报表 功能 、 仪 表盘 功能 、 
事件 管理 功能 以 及 BI 管理 功能 等 。Cognos 8 采用 SOA Service Oriented Architecture, ifii 
向 服务 的 体系 结构 ) ,统一 了 Web 应 用 构架 和 元 数据 ,能 够 访问 企业 的 所 有 数据 源 , 为 企业 
所 有 用 户 提供 了 基于 纯 浏览 器 的 ,全 面 的 BI 功能 。 
* 前 端 产品 “主要 包括 Report Studio. Analysis Studio 以 及 Query Studio 等 。 
* OLAP TR Cognos PowerPlay 以 桌面 OLAP 开始 ,一 直 以 轻便 ,快捷 的 操作 闻 
名 ,虽然 PowerPlay 早已 演变 成 C/S 结构 的 OLAP 服务 器 ,但 其 轻便 的 特点 仍 在 延 
续 ,而 且 提 供 可 以 简洁 部 署 旦 具有 交互 性 的 Framework Manager 界面 。 
优点 易于 集成 .部 署 和 使 用 ,经 过 简单 培训 后 就 能 进行 设计 与 开发 。 
缺点 目前 国内 没有 分 公司 ,只 有 国家 信息 中 心 下 属 的 优 信 佳 公司 独家 代理 ,其 服 
KEJAR, 
2) Hyperion System 9 
Hyperion System 9 BI 十 实现 BI 标准 化 策略 的 方法 是 采用 统一 系统 满足 多 种 多 样 的 报 
表 和 分 析 需 求 , 即 企业 内 每 个 部 门 的 每 位 用 户 ,都 能 通过 易于 操作 和 维护 的 单一 系统 按 需 生成 
报表 或 进行 分 析 。 这 样 ,企业 内 的 信息 使 用 者 和 生产 者 就 获得 了 快速 生成 .访问 和 共享 重要 
信息 的 便利 ,增强 了 工作 的 灵活 性 ,而 他 们 也 需要 这 些 重要 信息 来 更 快 .更 好 地 做 出 业务 决 
策 。 简 单 而 功能 强大 的 用 户 界面 使 业务 用 户 在 自行 创建 报表 时 对 IT 支持 和 依赖 降 到 了 最 
低 。 产 品 模 块 化 的 架构 极 大 地 降低 了 用 户 对 IT 支持 的 需求 ,通过 Hyperion System 9 BI 十 
平台 ,用 户 只 需 在 服务 端 部 署 和 管理 即 可 。 
。 前 端 产 品 ”主要 包括 BI 十 Web Analysis 和 BI 十 Interactive Reporting, 
。 OLAP 工具 Essbase 作为 老牌 的 OLAP 服务 器 是 一 个 比较 复杂 的 产品 ,所 谓 复杂 
有 两 层 含义 ,一 是 提供 丰富 的 API, 人 允许 充分 定制 开发 ; 二 是 开发 的 难度 较 大 ,不 易 
部 署 。 虽然 其 产品 性 能 很 高 ,但 即使 厂商 的 技术 人 员 也 很 难 掌握 其 烦琐 的 技术 
细节 。 
* 优点 ”BI 十 Web Analysis 查询 灵活 ,不 需 编程 ,适合 业务 人 员 使 用 。BI 十 Interactive 
Reporting 适合 复杂 查询 和 报表 设计 ,结合 Essbase 性 能 较 快 。 
。 缺点 ”安装 配置 非常 麻烦 ,使 用 BI 十 Interactive Reporting 必须 会 JSP 语言 ,操作 性 


较 差 ,各 种 图 形 饱和 度 差 些 。 

3) Business Object 

BO 是 集 查 询 .报表 和 OLAP 展现 为 一 身 的 智能 决策 支持 工具 , 它 使 用 独特 的 语义 层 和 
动态 微 立 方 等 技术 表示 数据 库 中 的 多 维 数据 ,具有 较 好 的 查询 和 报表 功能 ,提供 钻 取 等 多 维 
分 析 技 术 ,支持 多 种 数据 库 , 同 时 还 支持 基于 Web 浏览 器 的 查询 .报表 和 分 析 决 策 。 

* 前 端 产品 ”主要 包括 Web Intelligence 和 Crystal Reporting OK MRE) ,还 有 仪表 
板 和 绩效 管理 工具 。 
OLAP 工具 虽然 BO 在 不 断 增加 新 的 功能 ,但 严格 地 讲 , 只 能 算是 一 种 前 端 工 具 。 
也 许 正 因为 如 此 ,几乎 所 有 的 数据 仓库 解决 方案 都 把 BO 作为 可 选 的 数据 展现 
工具 。 
优点 ”用户 界面 美观 ,图 形 饱 和 度 高 ,拥有 多 种 新 颖 仪表 板 和 记分 卡 。 
缺点 不 能 出 现 网 络 中 断 , 否 则 需要 重启 。 程 序 安装 后 不 能 删除 ,否则 会 造成 系统 
骨 溃 ,仪表 板 之 间 的 集成 度 稍 差 些 。 报 表 和 分 析 工 具 较 复杂 ,用 户 很 难 自行 设计 所 
需 的 报表 ,开发 与 维护 成 本 较 高 。 
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数据 挖掘 与 OLAP 不 同 , 主 要 体现 在 其 分 析 数 据 的 深入 和 分 析 过 程 的 自动 化 ,自动 化 
的 含义 是 指 分 析 过 程 不 需要 用 户 参 与 。 这 是 一 把 双 刃 剑 ,在 实际 中 ,用 户 也 希望 参与 到 挖 所 
中 ,如 仅 对 数据 的 某 一 子 集 进 行 挖 掘 ,以 及 对 不 同 抽取 、 集 成 水 平 的 数据 进行 挖掘 ,还 有 希望 
根据 自己 的 需要 动态 选择 挖掘 算法 等 等 。 可 见 ,OLAP 与 数据 挖掘 各 有 所 长 ,如 果 能 将 二 
者 结合 衍生 出 一 种 为 数据 挖掘 服务 的 具有 新 型 OLAP 功能 的 应 用 ,将 更 能 适应 实际 的 需 
求 , 联 机 分 析 挖 掘 (OnLine Analytical Mining, OLAM) 正 是 这 种 结合 的 产物 。 

1997 年 Han J. W. 提出 了 OLAM 的 概念 ,将 OLAM XH OLAP Mining, 其 含义 是 
将 OLAP 和 数据 挖掘 技术 结合 起 来 ,在 多 维 模型 即 数据 立方 体 的 基础 上 对 外 提供 数据 分 析 
和 知识 发 现 应 用 , 即 在 OLAP 基础 上 ,对 数据 分 析 算 法 进行 扩充 ,把 数据 挖掘 算法 引入 到 多 
维 模型 的 数据 环境 中 ,并 把 这 种 思想 在 其 研制 的 DB Miner 系统 中 加 以 实现 。 

Han J. W. 提出 的 OLAM 的 研究 方向 是 数据 分 析 算法 和 数据 挖掘 算法 如 何 与 数据 立 
方 体高 效 地 结合 ,解决 多 维 数据 环境 的 数据 挖掘 。 但 是 对 于 如 何在 系统 体系 结构 上 将 
OLAP 和 数据 挖掘 有 机 地 结合 起 来 , 即 在 异 构 、 海 量 的 环境 中 快速 响应 用 户 的 数据 分 析 和 
数据 挖掘 请 求 的 问题 没有 做 深入 研究 。 

就 OLAP 和 数据 挖掘 技术 结合 的 系统 集成 度 而 言 , 可 分 为 松散 的 集成 和 紧密 的 集成 两 
种 , 即 : 

CD 松散 的 集成 是 指 系统 的 集成 度 不 高 , 即 把 分 立 的 OLAP 系统 和 数据 挖掘 系统 组 合 
在 一 起 ,两 者 没有 统一 的 逻辑 模型 和 任 / 事 务 模 型 。 

(2) 紧密 的 集成 是 指 系统 采用 统一 的 逻辑 模型 , 任 /事务 模型 .数据 定义 语言 和 数据 操 
作 原 语 ,对 于 数据 密集 和 耗 时 较 多 的 操作 ,系统 进行 统一 的 调度 和 优化 ,从 而 在 系统 内 核 上 
将 OLAP 和 数据 挖掘 有 机 结合 在 一 起 。 

Han J. W. 提出 的 OLAM 以 及 其 实现 的 DB Miner 系统 是 一 种 松散 的 集成 。 其 实 , 早 
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在 OLAM 概念 之 前 ,在 数据 挖掘 领域 已 有 将 OLAP 与 数据 挖掘 结合 起 来 提供 更 优质 的 数 
据 分 析 和 决策 支持 工具 的 思路 。 有 许多 OLAP 产品 在 功能 上 添加 了 数据 挖掘 能 力 , 在 具体 
实现 方式 上 可 以 分 为 两 类 : 

(1) 在 现 有 OLAP 产品 基础 上 ,通过 系统 的 改造 增加 数据 挖掘 功能 ,如 Business Object 
产品 中 的 决策 树 分 析 、DB Miner 系统 中 的 数据 挖掘 算法 工具 箱 。 在 这 种 实现 方式 中 OLAP 
与 数据 挖掘 的 结合 松散 ,拼装 的 痕迹 明显 ,对 系统 整体 体系 结构 的 考虑 较 少 ,不 能 同时 充分 
发 挥 两 者 的 优势 。 

(2) 把 数据 挖掘 算法 集成 在 系统 的 底层 功能 中 ,OLAP 与 数据 挖掘 结合 紧密 ,Microsoft 
公司 的 SQL Server 2000 中 的 关联 分 析 方 法 在 数据 库 端 的 集成 就 是 紧密 集成 这 种 方式 的 初 
步 尝 试 。 

推动 OLAM 发 展 的 原始 驱动 力主 要 体现 在 : 

CD 分 析 需 要 的 数据 是 一 些 经 过 净化 、 集 成 处 理 的 数据 ,通常 这 种 处 理 过 程 也 是 昂贵 
的 。 而 数据 仓库 作为 OLAP 的 数据 源 ,存储 的 就 是 这 样 的 数据 。 它 能 为 OLAP 提供 数据 ， 
当然 也 可 以 为 数据 挖掘 提供 数据 。 

(2) 数据 仓库 是 一 项 凯 新 的 技术 ,很 多 人 在 研究 它 , 围 绕 着 它 有 许多 工具 或 是 体系 结 
构 。 而 数据 挖掘 作为 数据 分 析 工 具 的 一 种 ,不 是 孤立 的 ,必然 与 其 他 工具 发 生 联 系 。 因 此 ， 
考虑 到 如 何 最 大 限度 地 利用 这 些 现成 的 工具 ,也 是 OLAM 发 展 之 初 所 关心 的 问题 。 

(3) 成 功 的 数据 挖掘 需要 对 数据 进行 钻探 性 分 析 。 例 如 ,挖掘 所 需 的 数据 可 能 只 是 一 
部 分 .一 定 范 围 的 数据 。 因 此 ,对 多 维 数据 模型 的 切片 . 切 块 和 下 钻 等 操作 ,同样 可 以 应 用 于 
数据 挖掘 中 。 换 言 之 ,可 以 将 数据 挖掘 建立 在 多 维 模型 基础 上 。 

(4) 用 户 参 与 对 数据 挖掘 的 重要 性 。 动 态 地 提出 挖掘 要 求 .选择 挖掘 算法 ,因此 可 以 将 
OLAP 的 C/S 结构 应 用 于 数据 挖掘 。 


4.2.1 体系 结构 


OLAM 的 挖掘 分 析 是 建立 在 数据 仓库 基础 上 的 ,数据 挖掘 所 需要 的 数据 在 进行 挖掘 之 
前 已 经 过 预 处 理 并 存放 在 数据 仓库 中 ,这 在 很 大 程度 上 提高 了 数据 挖掘 的 响应 速度 。 

此 外 ,具体 的 数据 挖掘 算法 与 数据 源 之 间 的 关系 完全 透明 。 用 户 在 进行 挖掘 时 ,首先 根 
据 算 法 要 求 从 数据 仓库 中 提取 相关 数据 ,然后 进行 运算 ,挖掘 产生 的 结果 即 学 习 获 得 的 知 
识 , 则 写 回 到 数据 仓库 的 相应 库 表 中 ,以 立方 体 的 形式 展现 给 用 户 ,如 图 4.2 所 示 。 

这 里 有 两 个 问题 需要 详细 讨论 , 即 : 

(1) 算法 选择 问题 。 如 前 所 述 ,OLAM 发 展 的 源 动力 之 一 是 给 予 用 户 一 定 算法 选择 的 
灵活 性 。 因 为 对 于 同一 个 功能 一 般 可 以 采用 多 种 算法 实现 ,例如 分 类 可 以 是 基于 统计 学 ,或 
基于 机 器 学 习 或 基于 神经 网 络 。 不 同 的 算法 针对 不 同 的 问题 空间 有 不 同 的 性 能 ,如 何 选择 
最 高 性 能 的 算法 ,是 用 户 需 要 考虑 的 问题 。 另 一 方面 ,OLAM 的 最 终 用 户 往往 对 具体 算法 
并 不 了 解 ,因此 提供 太 大 的 灵活 度 反 而 让 用 户 无 所 适 从 。 实 际 的 做 法 是 针对 OLAM 具体 
的 问题 空间 ,在 充分 实验 的 基础 上 , 仅 提供 有 限 的 几 种 算法 参与 知识 发 现 过程 , 并 将 结果 反 
馈 给 用 户 ,让 用 户 选择 最 贴近 实际 的 结果 。 这 在 一 定 程度 上 避免 了 用 户 与 挖掘 算法 的 直接 
接触 。 


表 等 传统 展示 工具 


图 4.2 OLAM 结构 演变 示意 图 


| 


(2) 源 数 据 钻探 问题 。 我 们 知道 ,传统 的 数据 挖掘 建立 在 各 种 数据 源 之 上 ,在 挖掘 之 
前 ,往往 需要 花费 大 量 的 时 间 进 行 数据 预 处 理 , 这 大 大 降低 了 系统 的 响应 性 能 。 而 OLAM 
建立 在 数据 仓库 之 上 ,挖掘 所 需 的 源 数据 事先 已 存放 在 数据 仓库 中 。 然 而 ,有 些 挖掘 算法 往 
往 需要 底层 的 详细 数据 ,如 分 析 电 信 客 户 行为 时 需要 客户 的 通话 详 单 ,这 些 数据 一 般 数据 量 
巨大 且 更 新 频繁 ,不 可 能 将 其 全 部 复制 到 数据 仓库 中 。 一 是 因为 系统 容量 有 限 , 二 是 由 于 系 
统 不 堪 频 繁 数据 更 新 的 重负 。 实 际 上 ,还 是 将 这 样 的 数据 存放 在 各 个 事务 数据 库 中 ,如 前 所 
述 数据 仓库 在 物理 上 也 可 能 就 是 原来 的 事务 数据 库 。 因 此 ,这 些 在 实际 中 根据 需要 存储 分 
析 或 挖掘 所 需 数据 的 事务 数据 库 , 在 逻辑 上 构成 了 一 个 虚拟 数据 仓库 ,如 图 4. 3 所 示 。 
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4.3 虚拟 数据 仓库 示意 图 


OLAM 的 挖掘 分 析 是 建立 在 多 维 模型 基础 上 ,而 且 在 实际 应 用 中 ,尽管 OLAM 的 多 维 
计算 可 能 需要 更 多 的 维度 和 更 强大 的 访问 工具 。 但 是 OLAP 的 立方 体 和 OLAM 的 立方 体 
之 间 并 没有 本 质 区 别 。 


4.2.2 特点 


建立 在 庞大 数据 库 或 数据 仓库 基础 上 的 OLAM 在 实现 过 程 中 面临 的 最 大 挑战 是 执行 
效率 的 提高 和 对 用 户 请 求 的 快速 响应 。 目 前 还 没有 OLAM 产品 出 现 , 对 OLAM 应 具备 的 
特点 也 众说 纷 颖 。 但 是 ,针对 OLAM 的 基本 结构 做 到 以 下 几 点 是 必要 的 。 
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(D OLAM 建立 在 多 维 数据 库 和 OLAP 的 基础 上 ,因此 应 能 方便 地 对 任何 数据 或 不 同 
抽象 级 别 的 数据 进行 挖掘 。 这 是 借助 OLAP 对 超级 立方 体 进行 切片 . 切 块 和 下 钻 等 操作 实 
现 的 。 另 外 ,如 果 需 要 OLAM 还 可 以 直接 访问 存储 在 底层 数据 库 中 的 数据 。 总 之 ,借助 于 
OLAP 的 支持 ,OLAM 能 对 任何 数据 进行 挖掘 。 

(2) 用 户 对 挖掘 算法 具有 动态 选择 的 权力 ,在 传统 的 关系 数据 库 中 ,对 同一 个 主题 , 任 
何不 同 的 查询 过 程 所 得 到 结果 是 相同 的 。 而 数据 挖掘 则 不 然 , 对 同一 个 问题 ,运用 不 同 的 挖 
掘 算法 ,获得 的 结果 可 能 大 相 径 庭 。 因 此 有 必要 给 予 用 户 以 动态 选择 挖掘 算法 的 权力 。 此 
外 ,有 些 用 户 针对 自己 的 问题 ,可 能 有 一 套 独特 的 挖掘 算法 ,并 希望 嵌入 到 OLAM 中 。 因 
此 ,OLAM 应 该 具有 通用 接口 ,便于 与 其 他 工具 或 算法 相 衔接 。 

(3) OLAM 建立 在 多 维 数据 视图 的 基础 上 ,因此 基于 超 立 方 体 的 挖掘 算法 是 其 核心 。 
超 立 方 体 计 算 与 传统 挖掘 算法 的 结合 使 得 数据 挖掘 有 了 极 大 的 灵活 性 和 交互 性 。 这 里 所 说 
的 超 立 方 体 计 算 一 般 是 指 切 片 . 切 块 .下 钼 和 旋转 等 操作 。 而 传统 挖掘 算法 是 指 关 联 、 分 类 、 
聚 类 和 预测 等 基于 关系 型 或 事务 型 的 挖掘 算法 。 根 据 超 立 方 体 计算 和 数据 挖掘 所 进行 的 次 
序 的 不 同 组 合 可 以 有 以 下 几 种 模式 , 即 : 

。 先进 行 立方 体 计 算 , 后 进行 数据 挖掘 。 在 进行 数据 挖掘 前 , 先 对 多 维 数据 进行 一 定 

的 立方 体 计算 ,以 选择 合适 的 数据 范围 和 恰当 的 抽象 级 别 。 
。 先 对 多 维 数据 进行 挖掘 ,然后 再 利用 立方 体 计算 对 挖掘 结果 做 进一步 的 深入 分 析 。 
* 立方 体 计算 与 数据 挖掘 同时 进行 ,在 挖掘 的 过 程 中 可 以 根据 需要 对 数据 视图 进行 
相应 的 多 维 操作 ,这 意味 着 同一 个 挖掘 算法 可 以 应 用 于 多 维 数据 视图 的 不 同 
部 分 。 

(4) 回溯 和 书签 功能 。OLAM 的 挖掘 过 程 是 对 多 维 数据 视图 的 一 个 不 断 深 入 的 过 程 。 
实际 中 ,用 户 很 有 可 能 因为 算法 的 复杂 而 在 超 立 方 体 中 * 迷 失 方向 ”。 因 此 OLAM 的 挖掘 
算法 应 能 给 用 户 提供 退回 上 次 操作 、 初 始 状 态 的 回溯 及 书签 功能 。 

(5) 5 OLAP 类 似 ,OLAM 也 采用 C/S 架构 ,这 使 得 其 具有 较 高 的 执行 效率 和 较 快 的 
响应 速度 。 但 由 于 一 般 挖掘 算法 都 复杂 且 耗 时 ,因此 在 执行 效率 和 挖掘 准确 性 两 者 之 间 需 
要 进行 权衡 。 一 般 情 况 下 ,OLAM 与 用 户 频繁 且 高 速 地 交互 ,应 选择 合适 的 挖掘 算法 和 数 
据 空间 ,一旦 这 两 点 确定 ,在 特定 数据 空间 上 再 执行 用 户 选 定 的 复杂 挖掘 算法 ,以 保证 最 终 
结果 的 正确 性 。 

此 外 ,OLAM 还 应 具有 灵活 的 可 视 化 工具 和 良好 的 扩展 性 。OLAM 的 结构 复杂 ,在 实 
际 应 用 中 要 与 多 个 模块 或 工具 交互 作用 。 例 如 ,OLAM 可 能 与 一 个 统计 软件 包 相 结合 ,或 
者 系统 本 身 功能 扩展 使 之 适合 于 地 理 数 据 、 文 本 数据 或 商业 数据 的 挖掘 。 因 此 ,OLAM 接 
口 的 标准 化 和 通用 性 则 显得 尤为 重要 。OLAM 是 OLAP 与 数据 挖掘 相 结 合 的 产物 , 它 兼 
B OLAP 多 维 分 析 的 在 线性 .灵活 性 和 数据 挖掘 对 数据 处 理 的 深入 性 ,是 具有 数据 挖掘 功 
能 的 数据 仓库 ,也 是 数据 仓库 应 用 工具 未 来 发 展 的 方向 。 


4.2.3 基于 Web 的 OLAM 


基于 C/S 架构 的 OLAP OLAM 的 一 个 重要 特点 是 与 用 户 的 交互 性 。WWW 也 是 基 
于 这 样 的 模式 。 此 外 ,由 于 用 户 前 端 展 示 工 具 的 一 致 性 (各 种 浏览 器 ) ,使 其 具有 更 大 的 开放 


性 。 基 于 Web 的 OLAM 是 Web 技术 与 OLAP 和 OLAM 的 结合 ,也 是 Web 数据 库 下 一 步 
发 展 的 目标 。 

可 以 把 基于 Web 的 OLAM 看 做 是 能 提供 多 维 分 析 和 挖掘 功能 的 Web 数据 库 应 用 。 
OLAM 以 应 用 程序 服务 器 的 形式 连接 到 网 络 ,浏览 器 端的 用 户 可 以 通过 Web 服务 器 访问 
OLAM 服务 器 。 

如 图 4.4 所 示 ,WWW 服务 器 是 实现 OLAM 功能 的 中 枢 , 其 执行 流程 的 大 致 步骤 
T: 

CD 浏览 器 端 用 户 通过 HTML 文件 中 的 表单 提出 数据 分 析 和 挖掘 请 求 并 传递 给 WWW 
服务 器 。 

Q WWW 服务 器 端 调用 相应 的 应 用 程序 如 CGI, ISAPI, NSAPI 等 ,并 根据 需要 激活 
OLAM 服务 程序 。 

@ OLAM 服务 器 引擎 将 立方 体操 作 转 换 为 SQL 请 求 , 并 交付 DBMS/DWMS 执行 。 

®© WWW 服务 器 将 结果 反馈 给 用 户 。 
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4.4 基于 Web 的 OLAM 结构 框图 


实现 交互 式 的 数据 库 应 用 系统 ,在 服务 器 端 一 般 是 执行 相应 的 CGI 或 ISAPI 程序 ,但 
开发 CGI 和 ISAPI 复 杂 而 低 效 , 并 且 对 程序 员 要 求 也 较 高 。 目 前 较为 先进 的 是 采用 ASP 
(Active Server Pages) 技 术 。 另 外 ,考虑 到 最 大 限度 地 减少 通信 量 及 增加 灵活 性 ,在 浏览 器 
端 引 入 了 Java Applets, ActiveX 或 VBScript 等 组 件 。 

目前 ,基于 Web 的 OLAM 应 用 还 处 于 起 步 阶段 ,这 一 领域 的 很 多 问题 有 待 研 究 。 
例如 : 

A) Web 数据 以 多 种 形式 存在 ,一 般 是 超 文 本 文件 ,而 且 结 构 性 较 差 。 迄 今 为 止 ， 
Internet 的 信息 描述 语言 已 由 最 初 的 SGML HTML 发 展 到 现在 的 XML 和 DHTML。 但 
是 ,由 于 浏览 器 的 不 同 ,很 难 在 各 种 语言 的 解释 执行 方式 上 取得 一 致 。 因 此 ,数据 描述 语言 
的 标准 化 显得 尤为 重要 。 

(2) 基于 Web 的 OLAM 前 端 展示 工具 。 浏 览 器 虽然 具有 界面 统一 、 易 于 操作 等 特点 ， 
但 仅 限于 提供 交互 式 操作 ,很 难 构造 复杂 应 用 。 因 此 ,能 否 开 发 一 种 接近 人 类 自然 语言 的 


(3) 系统 执行 效率 和 响应 速度 是 用 户 最 关心 的 问题 ,也 是 基于 Web 的 OLAM 在 实际 
中 遇 到 的 最 大 挑战 。 影 响 这 一 性 能 的 主要 因素 ,一 是 物理 网 络 的 传输 速度 ; 二 是 服务 器 端 
的 分 析 挖 掘 算法 的 执行 效率 。 随 着 网 络 技术 的 发 展 ,前 者 已 逐渐 不 足 为 虑 ,而 后 者 因为 大 部 


JNVTO 3 dVTO iaw 


— 
= 


原理 及 应 用 


分 多 维 分 析 算 法 ,如 对 超 立 方 体 的 切片 . 切 块 .旋转 等 操作 以 及 各 种 数据 挖掘 算法 都 是 复杂 
而 耗 时 的 ,因此 对 OLAM 服务 器 提出 了 很 高 有 时 甚至 是 很 难 满足 的 要 求 。 

此 外 ,还 有 一 些 非 技术 因素 也 是 基于 Web 的 OLAM 在 今后 的 发 展 中 需要 认真 解决 的 
问题 ,如 信息 安全 性 、 保 密 性 以 及 版 权 和 收费 问题 等 。 

IRT OLAP 和 OLAM 之 外 ,数据 挖掘 也 是 数据 仓库 的 一 个 重要 应 用 。 后 面 将 加 以 详 
细 介 绍 。 
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第 5 章 数据 挖掘 基础 


20 世纪 末 , 随 着 Internet 的 普及 ,全 球 信息 量 以 惊人 的 速度 急剧 增长 , 据 估计 每 二 十 个 
月 就 增加 一 倍 。 许 多 组 织 机 构 的 IT 系统 都 存储 了 大 量 数据 。 目 前 的 数据 ( 仓 ) 库 系统 虽然 
可 以 高 效 地 实现 数据 的 录入 查询 和 统计 等 功能 ,但 却 无 法 发 现 海量 数据 中 隐藏 的 关系 和 规 
则 ,无 法 预测 未 来 的 发 展 趋势 。 为 了 充分 利用 资源 ,从 海量 数据 中 发 现 隐 藏 的 知识 和 规律 ， 
数据 挖掘 应 运 而 生 并 显示 出 极其 强大 的 生命 力 。 

数据 挖掘 作为 一 门 新 兴 的 交叉 学 科 , 涉 及 数据 库 ,数据 仓库 ,统计 学 、 机 器 学 习 、 可 视 化 、 
信息 检索 和 高 性 能 计算 等 诸多 领域 ,其 他 相关 的 领域 还 包括 人 工 智 能 (Artificial 
Intelligence, AD 模式 识别 .空间 数据 分 析 、` 图 像 处 理 .概率 论 .图 论 和 归纳 逻辑 等 。 


5.1 概述 


数据 挖掘 的 提出 是 在 20 世纪 80 年 代 , 它 是 一 个 新 兴 的 、 面 向 商业 应 用 的 AI 研究 领域 。 

1989 年 8 H ,在 美国 底特律 召开 的 第 11 届 国 际 人 工 智能 联合 会 议 的 专题 讨论 会 上 首 
次 出 现 数据 库 中 的 知识 发 现 (Knowledge Discovery in Database. KDD) 这 一 术语 。 随 后 ,在 
1991 年 .1993 年 和 1994 年 都 举行 了 KDD 专题 讨论 会 ,汇集 来 自 各 个 领域 的 研究 人 员 和 应 
用 开发 者 ,集中 讨论 数据 统计 ,海量 数据 分 析 算法 .知识 表示 和 运用 等 问题 。 最 初 ,数据 挖掘 
是 作为 KDD 中 利用 算法 处 理 数据 的 一 个 步骤 ,后 来 逐渐 演变 成 KDD 的 同义词 。 

KDD 常常 被 称 为 数据 挖掘 ,实际 上 两 者 是 有 区 别 的 。 一 般 将 KDD 中 进行 知识 学 习 的 
阶段 称 为 数据 挖掘 。 数 据 挖掘 是 KDD 中 一 个 非常 重要 的 处 理 步 又。 但 是 ,人 们 往往 不 加 
区 别 地 使 用 。 

数据 挖掘 是 近年 来 出 现 的 客户 关系 管理 ,商业 智能 等 热点 领域 的 核心 技术 之 一 。 


5.1.1 定义 


从 技术 角度 而 言 ,数据 挖掘 是 从 大 量 的 、 不 完全 的 、 有 了 噪声 的 、 模 糊 的 、 随 机 的 实际 数据 
中 ,提取 隐 含 在 其 中 人 们 事先 不 知道 但 又 是 潜在 有 用 的 信息 和 知识 的 过 程 。 这 一 定义 包括 
多 层 含义 , 即 数据 源 必须 是 真实 的 ,海量 的 有 噪声 的 ,发 现 的 知识 应 是 用 户 感 兴趣 的 ,并 且 
是 可 接受 .可 理解 和 可 运用 的 ,并 不 要 求 是 放 之 四 海 而 皆 准 的 知识 ,可 以 仅 支持 特定 的 问题 。 

从 商业 角度 而 言 ,数据 挖掘 是 一 种 新 的 商业 信息 处 理 技术 ,其 主要 特点 是 对 数据 库 中 的 
大 量 业 务 数据 进行 抽取 、 转 换 、 分 析 和 其 他 模型 化 处 理 , 从 中 提取 辅助 商业 决策 的 关键 性 信 
息 和 知识 。 

简 言 之 ,数据 挖掘 本 质 上 是 一 种 深层 次 的 数据 分 析 方 法 。 因 此 ,数据 挖掘 可 以 描述 为 按 
企业 既定 业务 目标 ,对 大 量 的 企业 数据 进行 探索 和 分 析 ,揭示 隐藏 的 ,未知 的 或 验证 已 知 的 
规律 性 ,并 进一步 将 其 模型 化 的 有 效 方 法 。 
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数据 挖掘 所 发 现 的 最 常见 的 知识 包括 : 

1. 广义 (generalization) 知 识 

广义 知识 是 类 别 特征 的 概括 性 描述 知识 。 根 据 数据 的 微观 特性 发 现 其 表征 的 、 带 有 普 
遍 性 的 、 较 高 层次 概念 的 ,中 观 和 宏观 的 知识 ,反映 同类 事物 的 共同 性 质 , 它 是 对 数据 的 概 
括 、 精 炼 和 抽象 。 

广义 知识 的 发 现 方法 和 实现 技术 有 多 种 ,如 数据 立方 体面 向 属性 的 归 约 等 。 其 中 , 数 
据 立方 体 的 基本 思想 是 实现 某 些 常用 的 代价 较 高 的 聚集 函数 的 计算 ,如 求 和 、 平 均值 和 最 大 
值 等 ,并 将 其 存储 在 多 维 数据 库 中 。 因 为 很 多 聚集 函数 都 需要 重复 计算 ,在 多 维 数据 立方 体 
中 存放 预先 计算 好 的 结果 将 保证 快速 的 响应 ,并 灵活 地 提供 不 同 角 度 和 抽象 层次 上 的 数据 
视图 ; 另 一 种 广义 知识 的 发 现 方法 是 加 拿 大 Simon Fraser 大 学 提出 的 面向 属性 的 归 约 方 
法 。 该 方法 以 类 SQL 语言 表示 数据 挖掘 查询 ,收集 数据 库 中 的 相关 数据 集 ,然后 应 用 一 系 
列 数据 分 析 技 术 , 包 括 属性 删除 、 概 念 树 提升 .属性 阔 值 控 制 及 其 他 聚集 函数 计算 等 。 

2. 关联 (association) 知 识 

关联 知识 是 反映 一 个 事件 和 其 他 事件 之 间 依 赖 或 关联 的 知识 。 如 果 两 项 或 多 项 属性 之 
间 存 在 关联 , 则 其 中 的 一 项 就 可 以 依据 其 他 属性 值 进行 预测 。 最 著名 的 关联 分 析 算 法 是 
R. Agrawal 提出 的 Apriori。 关 联 分 析 的 实现 步骤 是 第 一 步 通过 迭代 识别 所 有 的 频繁 项 集 ， 
要 求 频繁 项 集 的 支持 率 不 低 于 用 户 设 定 的 冰 值 ; 第 二 步 从 频繁 项 集中 构造 可 信 度 不 低 于 用 
户 设 定 的 阔 值 的 规则 。 该 算法 的 核心 是 识别 或 发 现 所 有 频繁 项 集 , 这 也 是 计算 量 最 大 的 
部 分 。 

3. 分 类 (classification & clustering) 知识 

分 类 知识 是 反映 同类 事物 共同 性 质 的 特征 知识 和 不 同事 物 之 间 的 差异 性 的 特征 知识 。 
最 典型 的 分 类 方法 是 基于 决策 树 的 分 类 , 它 从 实例 集中 构造 决策 树 ,是 一 种 有 监督 和 指导 的 
学 习 方法 。 该 方法 先 根据 训练 集 ( 又 称 为 窗口 ) 形 成 决策 树 。 如 果 该 决策 树 不 能 对 所 有 样本 
给 出 正确 的 分 类 , 则 选择 一 些 例 子 加 入 到 窗口 中 ,重复 该 过 程 直 到 形成 正确 的 决策 集 , 即 一 
棵 决策 树 ,其 叶 结 点 是 类 名 ,中 间 结 点 是 带 有 分 支 的 属性 ,分 支 对 应 该 属性 的 某 一 可 能 值 。 
最 经 典 的 是 ID3 算法 ,采用 自 项 向 下 不 回溯 策略 ,保证 找到 一 棵 简单 的 决策 树 。C4. 5 和 
C5. 0 等 算法 都 是 ID3 的 扩展 ,将 分 类 从 类 别 属性 扩展 到 数值 型 属性 。 

此 外 ,还 有 统计 、 粗 糙 集 (rough seo 和 神经 网 络 等 分 类 方法 。 

4. 预测 (prediction) 知 识 

预测 知识 根据 时 间 序 列 , 由 历史 的 和 当前 的 数据 预测 未 来 ,也 可 以 认为 是 以 时 间 为 关键 
属性 的 关联 知识 。 

目前 ,时 间 序 列 预测 的 主要 方法 包括 统计 、 神 经 网 络 和 机 器 学 习 等 。1968 ^F Box 和 
Jenkins 提出 了 一 套 比 较 完善 的 时 间 序 列 建 模 理 论 和 分 析 方 法 ,通过 建立 随机 模型 ,如 自 回 
归 模 型 . 自 回归 滑动 平均 模型 . 求 和 自 回归 滑动 平均 模型 和 季节 调整 模型 等 ,实现 时 间 序 列 
预测 。 由 于 大 量 的 时 间 序 列 是 非 平稳 的 ,其 特征 参数 和 数据 分 布 随 着 时 间 的 推移 而 发 生变 
化 。 因 此 ,仅仅 通过 对 某 段 历史 数据 的 训练 ,建立 单一 的 预测 模型 ,还 无 法 准确 地 预测 。 为 
此 ,人 们 提出 了 基于 统计 学 和 精确 性 的 再 训练 方法 , 当 发 现 现 有 预测 模型 不 再 适用 于 当前 数 
据 时 ,对 模型 重新 训练 ,获得 新 的 参数 ,建立 新 的 模型 。 也 有 许多 系统 借助 并 行 算 法 实现 时 
间 序 列 预测 。 


5. 偏差 (deviation) 型 知识 


偏差 型 知识 是 对 差异 和 极端 特例 的 描述 ,揭示 事物 偏离 常规 的 异常 现象 ,如 标准 类 外 的 


特例 ,数据 聚 类 外 的 孤立 点 (outlier) 等 。 


上 述 知识 都 可 以 在 不 同 的 概念 层次 上 被 发 现 , 并 随 着 概念 层次 的 提升 ,从 微观 到 中 观 再 


到 宏观 ,以 满足 不 同 用 户 不 同 层次 的 决策 需要 。 
数据 挖掘 的 演化 过 程 如 表 5. 1 所 示 。 


表 5.1 数据 挖掘 的 演化 过 程 


进化 阶段 商业 问题 支持 技术 产品 厂家 产品 特点 
数据 搜集 “过 去 五 年 中 我 的 | 计算机、 磁带 和 提供 历史 、 静 态 的 
(20 世纪 60 年 代 ) | 总 收入 是 多 少 ?” 磁盘 à 数据 
数据 访问 在 新 天 御 二 的 分 | 关 系数 ME siai KI NOS 
odas qa VETSRPAEM | ROEM AAE LL e. 史 ,动态 的 数据 
售 额 是 多 少 ?” 查询 语言 (SQL) 
“在 新 英格兰 的 分 
数据 仓库 .决策 | 部 去 年 三 月 份 的 销 | 联机 分 析 处理 | Pilt, Comshare、| 在 各 种 层次 上 提 
支持 售 额 是 多 少 ? 波 士 | (OLAP) 多维 数 据 | Arbor, Cognos 和 | 供 回 溯 、 动 态 的 
(20 世纪 90 年 代 ) | 顿 据 此 可 得 出 什么 | 库 、 数 据 仓库 Microstrategy 等 数据 
结论 ?” 
TPAOH ENS DERE SUE Pilot, ^ Lockheed, 
数据 挖掘 销售 趋势 如 何 ? 为 | 处 理 器 计算 机 、 海 IBM.SGI 4 提供 预测 性 信息 
什么 ?” 量 数据 仓库 


在 了 解数 据 挖掘 演化 过 程 的 基础 上 ,以 下 两 个 问题 值得 探讨 。 

D 数据 挖掘 与 统计 学 的 关系 

近年 来 ,人 们 逐渐 发 现 数据 挖掘 的 许多 工作 都 是 利用 统计 方法 实现 的 。 一 些 人 (尤其 是 
统计 学 家 ) 甚 至 认为 数据 挖掘 是 统计 学 的 一 个 分 支 ,当然 大 多 数 人 (包括 绝 大 多 数 数据 挖掘 
人 研究 人 员 ) 并 不 这 么 认为 。 但 是 ,统计 学 和 数据 挖掘 的 目标 非常 相似 ,而 且 数 据 挖掘 的 许多 
算法 确实 源 于 数理 统计 ,统计 学 对 数据 挖掘 发 展 的 贡献 功 不 可 没 。 

2) 数据 挖掘 与 传统 数据 分 析 方 法 的 区 别 

数据 挖掘 的 本 质 是 一 种 深层 次 的 数据 分 析 方 法 。 数 据 分 析 已 有 多 年 的 历史 ,只 不 过 过 
去 数据 收集 和 分 析 的 一 般 目 的 是 用 于 科学 研究 。 另 外 ,由 于 当时 计算 能 力 的 限制 ,很 难 实 现 
对 海量 数据 进行 非常 复杂 的 分 析 。 现 在 ,由 于 各 行业 业务 自动 化 的 实现 ,商业 领域 产生 了 大 
量 的 业务 数据 ,这 些 数 据 并 不 是 为 了 分 析 的 目的 而 收集 的 ,而 是 在 商业 活动 过 程 中 由 于 业务 
需要 自然 产生 的 。 不 再 是 单纯 为 了 研究 ,更 主要 的 是 为 商业 决策 提供 真正 有 价值 的 信息 和 
知识 ,进而 使 利润 最 大 化 。 所 有 企业 面临 的 一 个 共同 问题 是 企业 数据 量 非常 大 ,而 其 中 真正 
有 价值 的 信息 和 知识 却 很 少 ,因此 需要 对 大 量 数据 进行 深入 分 析 ,获得 有 利于 提高 核心 竞争 
力 的 信息 和 知识 ,如 同 从 矿石 中 淘金 一 样 ,数据 挖掘 也 因此 而 得 名 。 

数据 挖掘 与 传统 数据 分 析 方法 的 区 别 主 要 在 于 : 

(1) 数据 挖掘 的 数据 源 与 以 前 相 比 有 显著 的 改变 。 首 先 ,数据 挖掘 出 现 的 背景 是 “数据 
爆炸 而 知识 贫乏 ”, 它 需要 处 理 的 数据 量 达 到 了 “ 太 ”( 万 亿 ) 级 以 上 , 比 传统 数据 分 析 所 处 理 
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的 数据 量 超出 几 个 乃至 十 几 个 数量 级 。 对 于 如 此 大 规模 的 数据 ,传统 的 数据 分 析 方 法 可 能 
根本 无 法 处 理 , 即 使 能 够 处 理 ,效率 也 是 一 个 瓶颈 。 因 此 需要 对 原 有 的 数据 分 析 方 法 重新 检 
验 并 加 以 改进 。 其 次 ,传统 数据 分 析 的 数据 源 一 般 都 是 清洁 的 、 结 构 化 的 ,数据 挖掘 则 是 
从 不 完全 的 、 有 噪声 的 、 模 糊 的 数据 中 发 现 知识 。 数据 的 抽取 、 清 洁 、 转 换 和 集成 是 数据 
挖掘 的 重要 组 成 部 分 。 数 据 挖掘 不 仅 可 以 处 理 结构 化 的 数据 ,还 可 以 处 理 半 结构 化 或 非 
结构 化 的 数据 。 事 实 上 , 非 结构 化 的 文本 挖掘 甚至 半 结 构 化 的 Web 挖掘 正 是 数据 挖掘 的 
研究 方向 之 一 。 

(2) 传统 数据 分 析 方 法 一 般 都 是 先 给 出 一 个 假设 然后 验证 , 即 在 一 定 意义 上 是 假设 驱 
动 的 ; 与 之 相反 ,数据 挖掘 在 一 定 意义 上 是 发 现 驱 动 的 ,模式 都 是 通过 大 量 的 探索 工作 从 海 
量 数据 中 自动 提取 。 这 一 点 是 数据 挖掘 区 别 于 传统 数据 分 析 方 法 以 及 OLAP 技术 的 本 质 
特点 。 数 据 挖掘 是 在 事先 没有 假定 想法 与 问题 的 情况 下 ,在 大 量 数据 中 发 现 隐 含 的 模式 。 
所 获得 的 信息 和 知识 具有 预先 未 知 的 特征 , 即 数据 挖掘 要 发 现 那些 不 能 靠 直 觉 发 现 的 甚至 
是 违背 直觉 的 信息 或 知识 , 越 是 出 乎 意料 ,可 能 越 有 价值 。 在 商业 应 用 中 最 典型 的 例子 就 是 
一 家 连锁 店 通过 数据 挖掘 发 现 小 孩 尿 布 和 啤酒 之 间 有 着 惊人 的 联系 。 


5.1.2 功能 


概括 地 ,数据 挖掘 的 主要 功能 如 下 : 

1. 概念 /类 别 描述 (concept/class description) 

概念 /类 别 描述 是 对 数据 集 做 一 个 简洁 的 总 体 性 描述 并 /或 描述 其 与 某 一 对 照 数 据 集 的 
差别 。 

例 5.1 收集 移动 业务 每 月 ARPU(Average Revenue Per User, 每 户 平均 收入 ) 超 出 
1000 元 的 客户 资料 ,然后 利用 数据 挖掘 可 作出 总 体 描述 如 下 : 年 龄 35 一 50 岁 工作 稳定 、 月 
收入 5000 元 以 上 、 拥 有 良好 信用 度 。 

例 5.2 对 比 移动 业务 每 月 ARPU 超出 500 元 和 低 于 30 元 的 两 个 客户 群 ,然后 利用 数 
据 挖掘 可 做 出 描述 如 下 : 每 月 ARPU 超出 500 元 的 客户 80% 以 上 年 龄 在 35 一 50 岁 , 月 收 
入 5000 元 以 上 ; 而 每 月 ARPU 低 于 30 元 的 客户 60% 以 上 要 么 年 龄 过 大 要 么 年 龄 过 小 ,月 
收入 2000 元 以 下 。 

2. 关联 分 析 (association analysis) 

从 一 个 数据 集中 发 现 关联 规则 ,该 规则 显示 给 定数 据 集中 经 常 一 起 出 现 的 属性 - 值 元 
组 。 例 如 : 关联 规则 X-Y 所 表达 的 含义 是 满足 X 的 元 组 很 可 能 满足 Y。 关 联 分 析 在 交易 
数据 分 析 、 支 持 定 向 市 场 、 商 品目 录 设 计 和 其 他 业务 决策 等 方面 有 着 广泛 的 应 用 。 

3. 分 类 和 预测 (classification and prediction) 

分 类 是 指 通过 分 析 一 个 类 别 已 知 的 数据 集 的 特征 建立 分 类 模型 ,该 模型 可 预测 类 别 未 
知 对 象 的 类 别 。 分 类 模型 可 以 表现 为 多 种 形式 ,如 分 类 规则 (if-then) ,决策 树 或 数学 公式 乃 
至 神经 网 络 。 预 测 与 分 类 类 似 , 只 不 过 预测 的 不 是 类 别 ,而 是 连续 的 数值 。 

4. 聚 类 分 析 (clustering analysis) 

聚 类 分 析 又 称 为 “ 同 质 分 组 ”或 “无 监督 的 分 类 ”, 即 把 一 组 数据 划分 为 不 同 的 “ 簇 ”, 每 一 
簇 中 的 数据 相似 而 不 同 簇 间 的 数据 则 相 异 ,可 以 通过 距离 函数 等 度量 相似 性 。 聚 类 应 保证 


不 同类 别 间 数 据 的 相似 性 尽 可 能 小 ,而 类 别 内 数据 的 相似 性 尽 可 能 大 。 

5. 时 间 序 列 分 析 (time series analysis) 

时 间 序 列 分 析 即 预测 ,是 指 通过 对 大 量 时 间 序 列 数 据 的 分 析 找 到 特定 的 规则 和 感 兴 
的 特性 ,包括 搜索 相似 序列 或 者 子 序列 ,挖掘 序列 模式 .周期 性 .趋势 和 偏差 。 预 测 的 目的 是 
对 未 来 的 情况 做 出 估计 。 

6. 其 他 功能 

除了 上 述 主 要 功能 外 ,还 包括 偏差 分 析 (deviation analysis), #32 4 4 $ (outlier 
analysis) 等 。 

随 着 数据 挖掘 技术 的 不 断 发 展 ,将 会 继续 出 现 新 的 应 用 。 


5.1.3 模型 


1. 5A 模型 

5A 模型 是 SPSS 提出 的 ,强调 的 是 数据 挖掘 工具 应 具有 的 功能 和 能 力 。5A 模型 认为 
数据 挖掘 方法 学 由 五 个 基本 元 素 组 成 , 即 Assess, Access, Analyze, Act 和 Automate, 

(1) Assess 正确 、 彻 底 地 评价 任务 的 需求 和 数据 ,正确 地 理解 商业 问题 和 数据 ,并 设计 
挖掘 计划 及 相关 准备 任务 。 

(2) Access 方便 ,快速 地 存 取 任务 涉及 的 数据 ,要 求 指定 的 数据 集合 符合 挖掘 的 需求 和 
质量 。 
(3) Analyze 适当 、 完 备 的 分 析 技术 和 工具 ,要 求 工具 能 全 面 提供 适合 不 同 需求 的 各 种 
挖掘 、 建 模 算 法 。 

(4) Act 具有 推荐 性 .说服 力 的 模型 演示 ,提供 可 视 化 的 模型 并 能 够 灵活 嵌入 到 各 类 展 


示 平 台中 。 
(5) Automate 自动 地 提供 挖掘 结果 并 展现 给 用 户 。 
2. SEMMA 模型 


SEMMA 是 SAS 提出 的 数据 挖掘 过 程 模型 ,由 抽样 (sample)、 探 索 Cexplore) , f iE 
(modify) 、 建 模 (model) 和 评估 (assess) 五 个 步骤 组 成 ,如 图 5.1 所 示 。 

1) 数据 取样 

进行 数据 挖掘 时 ,首先 需要 从 大 量 数据 中 取出 一 个 与 所 要 探索 问题 相关 的 数据 子 集 ,而 
不 是 动用 全 部 数据 。 犹 如 对 开采 出 来 的 矿石 首先 要 进行 选矿 一 样 。 通 过 数据 筛选 ,不 仅 能 
减少 数据 处 理 量 ,节省 系统 资源 ,而 且 使 所 反映 的 规律 性 更 加 凸现 出 来 。 

2) 数据 特征 探索 ` 分 析 和 预 处 理 

前 面 提 及 的 数据 取样 ,多 少 是 带 着 人 们 对 如 何 达 到 数据 挖掘 目的 的 先 验 认识 进行 操作 
的 。 当 获得 样本 数据 集 后 ,是否 可 达到 预想 的 要 求 ; 是 否 存在 明显 的 规律 和 趋势 ; 因素 之 
间 有 何 相 关 性 ; 可 划分 为 怎样 的 类 别 等 都 是 需要 探索 的 内 容 。 进 行 数据 特征 的 探索 和 分 
析 , 最 好 是 采用 可 视 化 的 操作 ,显示 各 种 统计 分 析 的 结果 ,而 且 可 进行 多 维 \ 动 态 甚 至 旋转 的 
显示 。 

3) 问题 明确 化 ,数据 调整 和 技术 选择 

通过 上 述 两 个 步骤 ,对 数据 的 状态 和 趋势 可 能 有 了 进一步 的 了 解 , 对 原先 要 解决 的 问题 
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图 5.1 数据 挖掘 过 程 模型 一 一 SEMMA 


可 能 会 进一步 明确 ,这 时 应 尽 可 能 对 需求 进行 量化 ,这 是 十 分 重要 的 。 例 如 很 可 能 因为 诸如 
质量 不 好 、 生 产 效率 低 等 一 些 模 糊 的 问题 而 无 法 进行 有 效 的 数据 挖掘 。 

在 问题 明确 的 基础 上 ,可 以 按照 问题 的 具体 要 求 审视 数据 集 ,以 确定 是 否 满足 需求 。 
Gartner Group 在 评论 当前 一 些 数据 挖掘 产品 时 特别 强调 指出 : 在 数据 挖掘 的 各 个 阶段 , 数 
据 挖掘 产品 都 要 让 所 使 用 的 数据 和 所 建立 的 模型 处 于 十 分 易于 调整 .修改 和 变动 的 状态 ,这 
样 才 能 保证 数据 挖掘 的 有 效 进行 。 

针对 需要 可 能 要 对 数据 进行 增删 :也 可 能 按照 对 整个 数据 挖掘 过 程 的 新 认识 ,组 合 或 生 
成 一 些 新 的 变量 。 

4) 模型 的 研发 .知识 的 发 现 

正如 Gartner Group 评论 所 指出 的 : 数理 统计 方法 还 是 数据 挖掘 工作 中 最 常用 的 主流 
手段 。 挖 掘 过 程 中 可 能 需要 各 种 不 同类 型 的 模型 ,不同 特征 数据 的 回归 分 析 , 如 正 交 回归 、 
线性 回归 、Logistic 回归 和 非 线性 回归 等 ,可 处 理 的 数据 包括 实 型 有 序 和 属性 数据 等 ,并 能 
产生 各 种 有 用 的 统计 量 和 诊断 信息 。 

3. CRISP-DM 模型 

为 了 使 数据 挖掘 技术 在 业界 得 到 更 好 的 应 用 ,欧洲 委员 会 联合 一 些 数据 挖掘 软件 厂商 


开发 了 CRISP-DM(Cross Industry Standard Process for Data Mining) 模 型 ,如 图 5. 2 所 示 . 
旨 在 把 数据 挖掘 过 程 标准 化 ,使 数据 挖掘 的 实施 速度 更 快 .成 本 更 低 、 更 可 靠 并 且 更 易于 管 
理 。1996 年 CRISP-DM 模型 被 首次 提出 ,并 在 各 种 KDD 模型 中 占据 领先 地 位 ,份额 
近 60%。 


建立 模型 


模型 评估 


图 5.2 CRISP-DM 模型 


CRISP-DM 模型 中 ,数据 挖掘 过 程 划 分 为 六 个 阶段 , 即 : 

1) 业务 理解 (business understanding) 阶 段 

本 阶段 专注 于 从 商业 角度 理解 项 目 目标 和 需求 ,并 转化 为 数据 挖掘 的 问题 定义 ,同时 设 
计 一 个 初始 计划 。 具 体 包括 : 

(1) 确定 业务 目标 (determine business objectives) 

分 析 员 第 一 步 要 做 的 是 从 商业 角度 全 面 理解 客户 真正 希望 达到 的 目的 。 客 户 的 目标 常 
常 具 有 挑战 性 但 同时 又 有 很 多 限制 ,需要 很 好 地 权衡 。 分 析 员 最 开始 要 做 的 是 找到 影响 整 
个 项 目的 重要 因素 。 如 果 缺 少 这 一 阶段 很 可 能 会 导致 给 出 的 答案 是 正确 的 但 是 提出 的 问题 
却 是 错 的 。 这 一 步骤 应 获得 的 相关 细节 包括 : 

背景 (background): 了 解 有 关 组 织 或 企业 商业 状况 的 详细 信息 。 

商业 目标 (business objectives) : 从 商业 角度 描述 客户 的 最 主要 目标 ,客户 通常 应 该 从 
商业 角度 提出 很 多 问题 ,例如 一 个 主要 的 商业 目标 是 预测 客户 何 时 可 能 流向 竞争 对 手 ， 
提出 的 问题 可 能 就 是 “一 个 电信 客户 所 使 用 的 主要 业务 受理 渠道 (客户 经 理 、Internet) 对 
他 们 是 否 流失 是 如 何 起 影响 作用 的 ?或 是 “降低 ATM 交易 费 能 否 减 少 高 价值 客户 的 
流失 ?”。 

商业 成 功 标准 (business success criteria): 从 商业 角度 描述 一 个 数据 挖掘 项 目的 结果 
是 否 成 功 。 可 能 是 以 一 种 明确 的 方式 如 减少 客户 流失 率 至 某 个 级 别 或 以 更 一 般 更 主观 的 方 
式 如 “发 现 有 用 的 联系 ”, 对 于 后 者 应 该 注 明 是 谁 作出 的 这 一 主观 决定 。 

(2) 评估 商业 环境 (assess situation) 

这 一 任务 涉及 对 很 多 资源 约束 、 假 定 等 对 整个 项 目 计 划 和 目标 有 影响 的 因素 的 仔细 考 
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察 。 前 一 个 任务 只 是 快速 了 解 大 致 情况 。 这 一 步骤 应 获得 的 相关 细节 包括 : 

资源 列表 (inventory of resources): 列 出 与 项 目 相 关 的 全 部 资源 ,包括 人 (领域 专家 、 数 
WEZ RLR AZMA RO ,数据 (固定 抽取 的 数据 、 从 数据 仓库 或 业务 数据 库 中 获得 的 数 
据 ) .计算 资源 (硬件 平台 ) 和 软件 资源 (数据 挖掘 工具 、 其 他 相关 资源 )。 

需求 ,假定 和 约束 (requirement.assumption and constraint): 列 出 项 目的 全 部 需求 , 包 
括 完工 日 程 .对 结果 的 质量 要 求 、 安 全 性 以 及 法 律 相 关 问 题 。 列 出 项 目 所 作 的 假定 以 及 约 
东 , 如 对 资源 的 约束 或 对 技术 的 约束 ,如 数据 的 大 小 对 于 建 模 是 可 行 的 。 

风险 和 意外 开销 (risk and contingency): 列 出 可 能 导致 项 目 延 期 或 终止 的 事件 , 列 出 
如 果 发 生 风 险 所 带 来 的 意外 开销 。 

RHR (terminology): 一 个 与 项 目 有 关 的 术语 表 应 该 有 两 个 ,一 是 商业 术语 表 , 另 一 个 
是 数据 挖掘 的 技术 术语 表 。 

成 本 和 收益 (cost and benefit); 项 目的 成 本 收益 分 析 , 比较 项 目的 潜在 收益 和 耗费 成 
本 。 这 项 工作 应 该 非常 具体 ,如 采用 商业 上 的 货币 度量 方式 。 

(3) 确定 数据 挖掘 目标 

商业 目标 用 商业 术语 说 明 ,数据 挖掘 目标 则 用 技术 术语 说 明 。 如 商业 目标 是 “提高 已 有 
客户 的 销售 量 ”, 而 数据 挖掘 目标 可 能 是 “在 给 定 其 过 去 三 年 的 购买 情况 数据 、 人 口 信息 (年 
龄 .收入 和 所 在 城市 等 ) 和 商品 价格 条 件 下 ,预测 某 个 客户 可 能 会 购买 多 少 ”。 这 一 步骤 的 相 
关 细 节 包 括 : 

数据 挖掘 目标 (data mining goal): 描述 项 目 预 期 的 哪些 输出 会 使 商业 目标 获得 成 功 。 

数据 挖掘 成 功 标准 (Cdata mining success criteria): 用 技术 术语 定义 项 目 成 功 时 的 结果 。 
如 果 商 业 目 标 是 以 主观 方式 描述 的 , 则 此 处 的 描述 可 能 也 将 以 主观 术语 描述 ,但 做 出 描述 的 
人 应 该 被 注 明 。 

(4) 提出 项 目 计 划 (produce project plan) 

描述 一 个 可 行 的 计划 以 达到 数据 挖掘 目标 和 商业 目标 。 计 划 应 该 预先 明确 项 目的 余下 
步骤 包括 工具 和 技术 的 初步 选取 。 这 一 步骤 的 相关 细节 包括 : 

项 目 计划 (project plan): 列 出 项 目的 执行 阶段 ,包括 时 间 、 所 需 资 源 、 输 入 、 输 出 和 依赖 
关系 ,可 能 会 在 某 些 环节 循环 或 重复 ,项 目的 计划 根据 实际 需要 动态 更 新 。 

初步 估计 工具 和 技术 (initial assessment of tool and technique): 对 使 用 的 工具 和 技术 
做 出 初步 估计 和 计划 。 

2) 数据 理解 (data understanding) 阶 段 

本 阶段 , 先 收集 初步 的 数据 ,然后 了 解 并 熟悉 数据 ,以 识别 数据 质量 .找到 对 数据 的 基本 
观察 或 假设 隐 含 的 信息 以 检测 出 感 兴趣 的 数据 子 集 。 具 体 包 括 : 

(1) 收集 原始 数据 (collect initial data) 

获取 在 项 目 资 源 中 所 需 的 原始 数据 ,这 个 过 程 可 能 包括 数据 理解 ,这 相当 于 初步 的 数据 
准备 过 程 。 如 果 数 据 源 分 散 则 需要 对 数据 进行 集成 ,生成 原始 数据 收集 报告 (initial data 
collection report) ,其 中 列 出 获得 的 数据 集 , 列 出 其 在 项 目 中 的 位 置 、. 获 取 数 据 的 方法 和 遇 到 
的 任何 问题 及 其 解决 方法 。 

(2) 描述 数据 (describe data) 

查看 数据 的 表面 特性 ,生成 数据 描述 报告 (data description report) ,描述 数据 的 格式 、 


数据 质量 .字段 数 . 记 录 数 以 及 其 他 各 种 表面 特性 。 

(3) 探索 数据 (explore data) 

该 任务 为 进行 数据 挖掘 进行 一 定 查询 ,可视化 以 及 报告 工作 。 包 括 分 析 关 键 属性 .预测 
任务 的 目标 属性 、 属 性 间 的 关系 、 简 单 聚 集 的 结果 、 重 要 子 集 的 特征 和 简单 的 统计 分 析 。 这 
些 分 析 可 能 直接 对 数据 挖掘 目标 产生 影响 也 可 能 对 数据 描述 ,数据 质量 报告 或 数据 准备 有 
用 。 生 成 数据 探索 报告 (data exploration report) 描 述 此 项 工作 的 结果 ,包括 最 初 的 发 现 、 原 
始 假 设 及 其 对 项 目的 影响 。 该 报告 可 能 有 一 些 图 等 表示 数据 的 特性 或 有 意义 的 子 集 。 

(4) 检查 数据 质量 (verify data quality) 

检查 数据 质量 ,可 以 提出 类 似 于 数据 是 否 完整 (是 否 覆 盖 全 部 情况 )、 是 否 正 确 ,如 果 有 
错误 ,错误 率 是 多 少 ,数据 中 是 否 有 缺失 值 , 如 果 存 在 缺失 值 则 它们 是 如 何 表示 的 ,在 何 处 发 
生 及 发 生 率 是 多 少 等 问题 。 生 成 数据 质量 报告 (data quality report) , 列 出 数据 质量 验证 结 
果 , 如 果 存 在 质量 问题 列 出 可 能 的 解决 方案 ,解决 方案 同时 依赖 于 数据 以 及 商业 知识 。 

3) 数据 准备 (data preparation) Br E 

本 阶段 包括 从 数据 构造 到 最 终 数 据 集合 (将 要 输入 建 模 工 具 的 数据 ) 的 所 有 活动 。 数 据 
准备 任务 可 能 需要 执行 很 多 次 ,并 没有 任何 规定 的 顺序 。 任 务 包 括 表 、 记 录 属 性 的 选择 以 及 
为 适应 建 模 工具 的 要 求 对 数据 的 转换 和 清洗 。 具 体 包 括 : 

(1) 数据 选择 (select data) 

选择 分 析 用 的 数据 。 数 据 选择 的 标准 是 与 挖掘 目标 、 质 量 和 技术 约束 相关 。 数 据 的 选 
择 包括 行 和 列 的 选择 。 生 成 所 包含 /不 包含 的 数据 清单 (rationale for inclusion/exclusion)， 
列 出 所 包含 /不 包含 的 数据 清单 及 其 原因 。 

(2) 数据 清洁 (clean data) 

提高 数据 质量 以 达到 数据 挖掘 分 析 的 要 求 。 可 能 包括 选择 已 经 清洁 的 数据 子 集 ,对 于 
错误 数据 的 修正 等 。 生 成 数据 清洁 报告 (data cleaning report) 描 述 应 该 采取 哪些 方法 和 措 
施 解决 数据 质量 问题 ,这 些 问题 在 验证 数据 质量 报告 中 曾经 提出 。 

(3) 数据 创建 (construct data) 

该 任务 根据 需要 产生 新 的 派生 属性 、 新 的 记录 或 变换 已 有 属性 值 。 这 一 步骤 的 相关 细 
节 包 括 : 

衍生 属性 (derived attribute) ; 将 已 有 属性 组 合 或 变换 成 更 有 利于 知识 挖掘 的 衍生 属 
性 ,如 面积 = 长 X 宽 。 

生成 记录 (generate record): 说 明 新 生成 的 数据 ,例如 客户 去 年 没有 购买 记录 ,其 有 关 
购买 数量 的 记录 不 存在 ,创建 一 条 记录 将 其 购买 数量 设置 为 0 以 利于 分 析 。 

(1) 数据 合并 (integrate data) 

使 用 一 些 方法 将 多 个 表 或 记录 合并 为 新 的 记录 或 值 。 包 括 合并 数据 (merged data) , 合 
并 表 ( 将 两 个 或 多 个 对 同一 对 象 有 不 同 信息 的 表 中 的 记录 合成 在 一 张 表 ) 。 合 成 数据 也 包括 
聚集 ,即将 若干 记录 的 信息 累计 生成 新 的 信息 。 

(2) 数据 格式 化 (format data) 

格式 化 数据 是 指 可 能 因为 建 模 工具 的 要 求 改变 数据 的 形式 。 这 一 步骤 的 相关 细节 包括 : 

重新 格式 化 数据 (reformatted data); 有 些 工具 对 属性 的 顺序 有 要 求 ,例如 第 一 个 域 是 
记录 标识 符 , 最 后 一 个 域 用 于 预测 模型 的 输出 。 记 录 的 顺序 同样 很 重要 ,可 能 某 些 工具 需要 
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记录 根据 输出 值 排序 ,通常 情况 下 表 中 记录 是 有 顺序 的 ,但 算法 要 求 使 用 乱 序 的 数据 ,例如 
神经 网 络 在 记录 是 随机 排列 时 效果 最 好 ,通常 无 需 人 的 干预 而 由 工具 本 身 完成 。 除 此 之 外 ， 
还 有 一 些 数据 有 词法 格式 化 的 需求 ,如 对 于 逗号 分 割 的 文本 字段 可 能 需要 删 去 逗号 ,字符 串 
最 长 不 超过 32 个 字符 等 。 

4) 建立 模型 (modeling) 阶 段 

本 阶段 可 以 选择 各 种 建 模 技术 ,各 类 模型 参数 也 可 以 调整 优化 。 对 同一 个 数据 挖掘 问 
题 有 多 种 可 用 技术 , 某 些 技术 对 数据 的 形式 有 一 定 要 求 ,因此 常常 要 退回 到 数据 准备 阶段 。 
具体 包括 : 

(1) 选择 建 模 技术 (select modeling technique) 

确定 数据 挖掘 算法 和 参数 ,可 能 会 利用 多 种 算法 。 作 为 建 模 任务 的 第 一 步 ,应 该 选择 实 
际 使 用 的 建 模 技术 。 与 在 商业 理解 阶段 选择 建 模 技术 相 比 本 阶段 更 加 明确 指定 具体 的 建 模 
技术 ,如 明确 决策 树 是 使 用 C4. 5 算法 构造 还 是 BP(back propagation) 神 经 网 络 算法 。 如 果 
使 用 多 种 技术 ,需要 对 每 种 技术 分 别 进行 此 项 工作 。 选 择 什么 样 的 模型 决定 了 需要 对 数据 
做 哪些 预 处 理 , 如 神经 网 络 模型 需要 转换 数据 ,有 些 数据 挖掘 工具 可 能 对 输入 数据 的 格式 有 
特定 限制 。 一 旦 所 有 的 数据 准备 好 之 后 ,可 以 开始 训练 模型 。 这 一 步骤 除 建 模 技术 还 包括 
建 模 假设 (modeling assumption) , 即 很 多 建 模 技术 对 数据 都 做 一 定 的 假设 ,例如 所 有 属性 具 
有 同样 的 权重 ,没有 缺失 值 , 分 类 属性 必须 是 符号 化 的 等 。 

(2) 测试 方案 设计 (Cgenerate test design) 

设计 某 种 测试 模型 的 质量 和 有 效 性 的 机 制 。 在 真正 生成 模型 之 前 ,需要 建立 一 个 测试 
过 程 或 机 制 以 保证 模型 的 质量 和 正确 性 ,例如 对 于 分 类 很 自然 地 使 用 错误 比率 作为 分 类 模 
型 的 质量 评价 度量 。 因 此 可 以 将 数据 分 为 训练 集 和 测试 集 ,在 训练 集 上 建立 模型 ,在 测试 集 
上 测试 模型 的 质量 。 这 一 步骤 的 相关 细节 包括 : 

测试 方案 (test design): 该 方案 说 明 如 何 训 练 、 测 试 和 评估 模型 ,其 中 一 个 主要 部 分 是 
数据 如 何 划 分 为 训练 集 、 测 试 集 和 评估 集 。 

。 模 型 训练 (build model); 在 准备 好 的 数据 集 上 运行 数据 挖掘 算法 ,得 出 一 个 或 者 多 

个 模型 。 
。 模型 测试 评估 (assess model) : 根据 测试 方案 进行 测试 ,从 数据 挖掘 角度 确定 数据 挖 
掘 目标 是 否 成 功 。 

5) 模型 评估 (evaluation) 阶段 

在 最 终 扩展 模型 前 需要 彻底 地 评价 模型 ,对 所 建 模型 再 次 考察 其 执行 步骤 并 确信 其 正 
确 地 达到 了 商业 目标 。 这 里 ,一 个 关键 的 目的 是 确定 是 否 有 某 些 重要 的 商业 问题 还 没有 充 
分 地 考虑 到 。 具 体 包括 : 

(1) 结果 评估 (evaluate result): 从 商业 角度 评估 获得 的 模型 ,甚至 实际 试用 该 模型 测 
试 其 效果 。 

(2) 过 程 回顾 (review process); 回顾 项 目的 所 有 流程 ,确定 每 一 阶段 都 没有 失误 。 

(3) 确定 下 一 步 工作 (determine next step): 根据 结果 评估 和 过 程 回 顾 得 出 的 结论 , 确 
定 是 部 署 该 挖掘 模型 还 是 从 某 个 阶段 重新 开始 。 

6) 系统 部 署 (deployment) 阶段 

所 获得 的 挖掘 结果 和 知识 应 该 采用 用 户 可 以 使 用 的 方式 组 织 和 表示 。 可 以 简单 到 只 有 


一 份 报告 也 可 以 实现 一 个 可 以 重复 的 挖掘 过 程 或 系统 。 很 多 情况 下 ,这 将 由 用 户 而 非 分 析 
员 实施 。 具 体 包括 : 

。 部 署 计划 (plan deployment); 对 在 业务 运作 中 部 署 模型 做 出 计划 ; 

* 监控 和 维护 计划 (plan monitoring and maintenance) : 如 何 监 控 模型 在 实际 业务 中 
的 使 用 情况 ,如何 维 护 该 模型 ; 
做 出 最 终 报告 (produce final report): 总 结 项 目 经 验 和 项 目 结果 ; 
项 目 回顾 (review project); 回顾 项 目的 实施 过 程 ,总 结 经 验 教 训 , 预 测 数 据 挖掘 的 
运行 效果 。 

为 了 保证 数据 挖掘 项 目的 可 靠 性 和 可 管理 性 ,CRISP-DM 模型 规定 应 该 产生 11 个 报 
告 , 即 业务 理解 报告 ` 原 始 数据 收集 报告 .数据 描述 报告 .数据 探索 报告 .数据 质量 报告 数据 
集 描述 报告 .模型 训练 报告 模型 评估 报告 .部 署 计 划 ,监控 和 维护 计划 及 总 结 报告 。 通 过 这 
些 报 告 ,可 以 有 效 地 控制 数据 挖掘 的 项 目 进程 ,减少 风险 。 

K 5. 2 所 示 为 各 个 阶段 的 通用 任务 ,其 中 黑体 表示 任务 的 名 称 , 斜 体 表示 任务 的 输出 。 


表 5.2 CRISP-DM 各 阶段 通用 任务 


Business. Data 
E y E E 
Determine Collect Initial Data Data Set. Select Modeling Evaluate Results Plan Deployment 
Business Objeetives |Jnitial Data Collection | Data Set Description "Technique Assessment of Data Deployment Plan 
Background Report Modeling Technique | Mining Results w.r.t. 
Business Objectives Select Data Modeling Assumptions | Business Success Plan Monitoring and 
Business Success Describe Data Rationale for Inclusion / Criteria. Maintenance 
Criseria Data Description Report | Exclusion Generate Test Desiga | Approved Models Monitoring emd. 
Test Design Mainienance Plan 
Assess Situation Explore Data Clean Data Review Process 
Inventory of Resources |Data Exploration Report | Data Cleaning Report. | Build Model Review of Process. Produce Final Report 
Requirements, Parameter Settings Final Repori 
Assumptions, and — |Verify Data Quality | Construct Data Models Determine Next Steps | Final Presentation 
Constraints Data Quality Report Derived Attributes Model Description List of Possible Actions 
Risks and Contingencies| Generated Records S Decision Review Project 
Terminology Assess Model. Experience 
Costs and Benefits Integrate Data Model Assessment Documeniation 
Merged Data Revised Parameter 
Determine Seuings 
Data Mining Goals Format Data 
Data Mining Goals Reformatted Data 


Data Mining Success 
Criseria 


Produce Projeet Plan 
Project Plan 


Inia! Assessment of 
Tools and Techniques 


CRISP-DM 模型 给 出 了 整个 数据 挖掘 项 目的 流程 。 对 于 一 个 数据 挖掘 系统 ,实际 上 只 
涉及 其 中 的 数据 准备 、 模 型 训练 .模型 评估 三 个 阶段 ,而 业务 理解 和 数据 理解 则 是 为 数据 挖 
据 系 统 准 备 输 入 ,模型 部 署 是 数据 挖掘 系统 的 实施 。 


5.1.4 展望 
近年 来 ,数据 挖掘 的 研究 重点 逐步 从 算法 研究 转向 系统 应 用 ,注重 多 种 策略 和 技术 的 集 


成 ,以 及 多 学 科 之 间 的 渗透 和 交叉 ,如 1998 年 在 美国 纽约 举行 的 第 四 届 知 识 发 现 与 数据 挖 
掘 国际 学 术 会 议 上 不 仅 进 行 了 学 术 讨 论 ,并 且 有 三 十 多 家 软件 公司 展示 了 数据 挖掘 软件 产 
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品 ,不 少 软件 已 在 北美 .欧洲 得 到 应 用 。 

目前 ,数据 挖掘 在 银行 电信、 保险 .交通 和 零售 (如 超市 ) 等 领域 都 有 不 少 成 功 的 应 用 案 
例 , 随 着 商业 竞争 日 趋 加 剧 ,对 数据 挖掘 的 需求 将 愈加 紧迫 。 

就 应 用 领域 而 言 , 当前 数据 挖掘 的 热点 包括 网 站 的 数据 挖掘 .生物 信息 或 基因 
(bioinformaticsygenomics) 挖 掘 、 文 本 挖掘 (text mining) 和 多 媒体 挖掘 (multimedia mining) 
等 。 下 面 分 别 进行 简要 介绍 。 

1. 网 站 的 数据 挖掘 

当前 Internet 上 各 类 电子 商务 网 站 风起云涌 ,电子 商务 的 业务 竞争 比 传统 的 业务 竞争 
更 加 激烈 。 客 户 从 一 个 电子 商务 网 站 转换 到 竞争 对 手 那 边 ,只 需 点 击 几 下 鼠标 即 可 ,电子 商 
务 环 境 下 客户 保有 比 传统 商业 更 加 困难 , 若 想 在 激烈 的 竞争 中 生存 , 则 必须 比 竞 争 对 手 更 了 
解 客户 。 电 子 商务 网 站 每 天 都 可 能 有 上 百 万 次 的 在 线 交 易 , 生 成 大 量 的 日 志文 件 (log file) 
和 登记 表 , 如 何 对 这 些 数据 进行 分 析 和 挖掘 ,充分 了 解 客户 的 嘉 好、 购买 习惯 甚至 是 客户 一 
时 的 冲动 ,设计 出 满足 不 同 客户 群 需求 的 个 性 化 网 站 ,进而 增强 竞争 力 ,几乎 是 势 在 必 行 。 

就 分 析 和 建 模 而 言 ,网 站 的 数据 挖掘 和 现 有 的 数据 挖掘 差别 并 不 是 特别 大 ,很 多 方法 和 
分 析 思 路 都 可 以 借鉴 ,所 不 同 的 是 网 站 的 数据 格式 有 很 大 一 部 分 来 自 于 点 击 流 ,与 传统 的 数 
据 格式 有 所 区 别 。 因 而 对 电子 商务 网 站 进行 数据 挖掘 所 做 的 主要 工作 是 数据 准备 。 目 前 ， 
有 很 多 厂商 正 致力 于 开发 专门 的 软件 。 

2. 生物 信息 或 基因 挖掘 

生物 信息 或 基因 数据 挖掘 则 完全 属于 另 一 个 领域 ,其 商业 价值 很 难 估 计 , 但 对 于 人 类 却 
受益 菲 浅 。 例 如 ,基因 组 合 千变万化 , 患 有 某 种 疾病 的 人 的 基因 和 正常 人 的 基因 差别 到 底 多 
X? 能 否 找 出 差异 ,进而 加 以 改变 使 之 成 为 正常 基因 ? 这 都 需要 数据 挖掘 技术 的 支持 。 

对 于 生物 信息 或 基因 的 挖掘 和 通常 意义 的 数据 挖掘 相 比 ,无 论 在 数据 复杂 度 、 数 据 量 以 
及 分 析 和 建 模 上 都 复杂 得 多 。 就 算法 而 言 ,需要 一 些 新 的 和 好 的 算法 ,目前 很 多 厂商 致力 于 
这 方面 的 研究 ; 就 技术 和 软件 而 言 ,还 远 未 成 熟 。 

3. 文本 挖掘 

文本 挖掘 是 另外 一 个 人 们 颇 感 兴趣 的 领域 ,例如 客户 服务 中 心 把 同 客户 的 谈话 内 容 转 换 
为 文本 ,再 进行 挖掘 ,进而 了 解 客户 对 服务 的 满意 度 和 客户 的 需求 以 及 客户 之 间 的 相互 关系 等 。 

无 论 是 在 数据 结构 还 是 在 分 析 方 法 方面 ,文本 挖掘 和 前 面 提 及 的 数据 挖掘 相差 很 大 。 
文本 挖掘 并 不 是 一 件 容易 的 事情 ,尤其 是 在 分 析 方 法 方面 ,还 有 很 多 需要 研究 的 专题 。 目 前 
市 场 上 有 一 些 类 似 的 软件 ,但 大 部 分 只 是 把 文本 移 来 移 去 ,或 简单 地 计算 某 些 词汇 出 现 的 频 
率 , 并 不 具有 真正 的 分 析 功 能 。 

4. 多 媒体 挖掘 

多 媒体 挖掘 主要 包括 两 个 方面 ,基于 描述 的 检索 是 指 基于 图 像 描 述 创建 索引 并 实现 对 
象 检索 ,如 关键 字 标题 .尺寸 和 创建 时 间 等 。 若 通过 人 工 实现 极为 费力 , 若 自动 实现 往 
往 结果 不 甚 理想 ; 基于 内 容 的 检索 是 指 支持 基于 图 像 内 容 的 检索 ,如 颜色 质地、 形状 和 
对 象 等 。 

当前 ,数据 挖掘 研究 的 焦点 集中 在 以 下 几 个 方面 : 

1) 发 现 语言 的 形式 化 描述 

即 研究 专门 用 于 知识 发 现 的 数据 挖掘 语言 ,寻求 类 似 于 数据 库 SQL 语言 的 数据 挖掘 语 


言 , 使 挖掘 过 程 走向 形式 化 和 标准 化 。 

2) 寻求 数据 挖掘 过 程 的 可 视 化 方法 

使 知识 发 现 的 过 程 能 够 被 用 户 理解 ,便于 在 知识 发 现 过 程 中 实现 人 机 交互 。 

3) 研究 在 网 络 环境 下 的 数据 挖掘 技术 

特别 是 在 Internet 上 建立 Web 服务 器 ,并 且 与 数据 库 服务 器 配合 ,实现 Web 挖掘 
(Web mining). 

4) 加 强 对 各 种 非 结 构 化 数据 的 挖掘 

如 对 文本 、 图 形 、 视 频 、 音 频 乃至 综合 多 媒体 数据 的 挖掘 。 

5) 知识 的 维护 更 新 

数据 挖掘 的 结果 一 一 知识 是 具有 时 效 性 的 ,需要 研究 知识 的 维护 更 新 技术 ,如 知识 的 增 
量 更 新 和 模型 进化 等 。 


5.2 实现 


数据 挖掘 的 实现 过 程 如 图 5. 3 所 示 。 


原始 Ee ZU | 


5.3 数据 挖掘 的 实现 过 程 


1. 数据 准备 

数据 挖掘 的 处 理 对 象 是 海量 数据 ,它们 一 般 存储 在 数据 库 系 统 , 是 长 期 积累 的 结果 。 但 
往往 不 适合 直接 进行 数据 挖掘 ,需要 进行 预 处 理 。 数 据 预 处 理 包括 数据 的 选择 、 清 洁 ( 消 除 
噪声 \ 宛 余数 据 ) ,推测 (推算 缺失 数据 ) ,转换 (离散 型 数据 与 连续 型 数据 之 间 的 转换 ) ,数据 
缩减 (减少 数据 量 ) 等 。 

数据 准备 是 数据 挖掘 的 第 一 个 步骤 ,其 成 功 与 否 将 影响 到 数据 挖掘 的 效率 、 准 确 性 以 及 
最 终 模型 的 有 效 性 。 

2. 数据 挖掘 

数据 挖掘 是 最 为 关键 的 一 个 步骤 , 它 根据 挖掘 的 目标 ,选取 相应 算法 的 参数 ,分 析 数 据 ， 
得 到 可 能 形成 知识 的 模型 ,目前 常用 的 算法 包括 决策 树 、 分 类 、 聚 类 粗糙 集 , 关 联 规 则 .人 工 
神经 网 络 和 遗传 算法 等 。 

3. 模式 的 评估 、 解 释 

通过 上 述 步骤 得 到 的 模式 ,有 可 能 是 没有 意义 或 没有 实用 价值 的 ,因此 需要 评估 ,确定 
哪些 是 有 效 的 .有 用 的 模式 。 此 外 .大 部 分 模式 是 数学 的 表达 式 ,很 难 被 人 理解 ,还 需要 将 其 
解释 成 可 理解 的 方式 呈现 给 用 户 。 
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4. 知识 运用 

发 现 知识 是 为 了 运用 ,如 何 运用 知识 也 是 一 个 关键 。 运 用 知识 主要 有 两 种 途径 : 其 一 
是 只 需 看 知识 本 身 描述 的 关系 或 结果 ,就 可 以 对 决策 提供 支持 ; 其 二 是 要 求 对 新 的 数据 运 
用 知识 ,由 此 可 能 产生 新 的 问题 ,并 需要 对 知识 做 进一步 优化 。 

数据 挖掘 过 程 可 能 需要 多 次 的 循环 反复 ,一 旦 某 个 步骤 与 预期 目标 不 符 , 则 需要 回溯 到 
前 面 的 步骤 ,重新 调整 和 执行 。 

在 数据 挖掘 的 实现 过 程 中 ,不 同步 骤 需 要 具有 不 同 专长 的 人 员 参 与 完成 ,大 致 可 以 分 为 
三 类 : 

CD 业务 分 析 人 员 : 要 求 精通 业务 ,能 够 确定 用 于 数据 定义 和 挖掘 算法 的 业务 需求 。 

(2) 数据 分 析 人 员 : 精通 数据 分 析 技 术 ,熟练 掌握 统计 学 方法 ,有 能 力 把 业务 需求 转化 
为 数据 挖掘 的 各 步 操作 ,并 为 每 步 操作 选择 合适 的 技术 。 

(3) 数据 管理 人 员 : 精通 数据 管理 技术 ,负责 从 数据 库 或 数据 仓库 中 收集 数据 。 

由 此 可 知 ,数据 挖掘 是 一 个 多 领域 专家 合作 的 过 程 ,同时 也 是 一 个 在 资金 和 技术 上 高 投 
和 人 的 过 程 ,这 一 过 程 需要 反复 进行 ,以 不 断 地 趋 近 事物 的 本 质 ,不 断 地 优化 问题 的 解决 方案 。 

一 般 地 ,企业 实施 数据 挖掘 的 方式 主要 有 三 种 , 即 : 

。 购买 通用 的 数据 挖掘 软件 

。 构建 数据 挖掘 系统 

第 一 种 方式 实现 简单 ,可 以 直接 应 用 ,但 是 要 求 模型 所 模拟 的 环境 必须 和 企业 的 产品 、 
客户 以 及 市 场 条 件 相 类 似 。 当 模型 涉及 的 环境 条 件 改变 时 ,不 能 根据 环境 的 变化 做 出 修改 
和 调整 ; 第 二 种 方式 可 以 利用 数据 挖掘 系统 根据 企业 自身 的 数据 生成 模型 。 但 是 ,一 个 通 
用 的 数据 挖掘 系统 在 对 特定 的 商业 问题 的 理解 上 可 能 需要 做 很 多 工作 。 同 时 ,如 何 与 企业 
现 有 系统 自动 化 集成 也 是 一 个 需要 着 重 考 虑 的 问题 ; 第 三 种 方式 可 以 较 好 地 解决 与 现 有 系 
统 集成 的 问题 ,并 可 以 直接 面向 特定 的 商业 问题 的 解决 。 但 是 这 种 方式 实现 较 复杂 ,项 目 实 
施 周期 长 ,成 本 较 高 。 

当然 ,企业 也 可 以 把 上 述 三 种 方式 结合 起 来 ,例如 购买 包含 模型 的 数据 挖掘 软件 、 购 买 
通用 数据 挖掘 软件 进行 针对 本 企业 的 二 次 开发 等 。 

以 电信 行业 为 例 , 建 议 构 建 一 个 适合 企业 自身 特点 的 数据 挖掘 系统 是 较 好 的 选择 (包括 
购买 针对 本 行业 特点 开发 的 数据 挖掘 系统 )。 


5.3 IR 


5.3.1 概述 


数据 挖掘 的 应 用 前 景 非常 广阔 ,相关 产品 的 研发 方兴未艾 。 目 前 ,已 经 出 现 了 几 十 种 商 
用 数据 挖掘 产品 和 工具 。 

数据 挖掘 工具 的 发 展 大 致 经 历 了 四 个 阶段 。 

第 一 代数 据 挖掘 工具 支持 一 种 或 少数 几 种 数据 挖掘 算法 ,可 以 挖掘 向 量 数据 ,挖掘 时 一 
般 一 次 性 调 入 内存 进 行 处 理 。 典 型 产品 包括 CBA 和 Salford Systems 公司 早期 的 CART 


系统 。 

第 二 代数 据 挖掘 工具 支持 数据 库 和 数据 仓库 ,和 它们 之 间 有 高 性 能 接口 ,具有 较 好 的 可 
扩展 性 ,能 够 挖掘 更 大 、 更 复杂 以 及 高 维 的 数据 集 。 通 过 支持 数据 挖掘 模式 和 数据 挖掘 查询 
语言 (DMQL) 增 加 了 系统 的 灵活 性 。 典 型 产品 是 DBMiner。 

第 三 代数 据 挖掘 工具 的 特点 是 能 够 挖掘 Internet/Extranet 的 分 布 式 和 高 度 异 构 的 数 
据 , 并 且 能 够 有 效 地 与 操作 型 系统 集成 。 其 关键 技术 之 一 是 对 建立 在 异 构 系 统 上 的 多 个 预 
测 模型 以 及 管理 这 些 预测 模型 的 元 数据 提供 第 一 级 的 支持 ,但 不 支持 移动 环境 。 典 型 产品 
是 SPSS Clementine。 

第 四 代数 据 挖掘 工具 能 够 挖掘 符 入 式 系统 、 移 动 系统 和 普遍 存在 的 计算 设备 产生 的 各 
种 类 型 的 数据 。 

数据 挖掘 工具 的 应 用 主要 分 为 三 类 , 即 : 

CD 通用 的 数据 挖掘 工具 ,不 区 分 具体 数据 的 含义 ,采用 通用 的 挖掘 算法 ,处 理 常 见 的 
数据 类 型 。 通 用 的 数据 挖掘 工具 可 以 实现 多 种 模式 的 挖掘 ,挖掘 什么 \ 用 什么 挖掘 都 由 用 户 
根据 实际 需求 选择 ,如 SAS Enterprise Miner, IBM Intelligent Miner, UnicaPRW , SPSS 
Clementine, SGI MineSet, Oracle Darwin 和 Angoss KnowledgeSeeker 等 。 

(2) 综合 的 数据 挖掘 工具 ,能 提供 管理 报告 ,在线 分 析 处 理 和 普通 的 数据 挖掘 能 力 ,如 
Cognos Scenario 和 Business Object 等 。 

(3) 专用 的 数据 挖掘 工具 ,面向 特定 应 用 的 数据 挖掘 工具 ,针对 某 一 特定 领域 的 问题 提 
供 解决 方案 。 在 设计 算法 时 充分 考虑 了 数据 .需求 的 特殊 性 ,并 进行 优化 。 其 针对 性 比较 
强 , 只 能 用 于 一 种 应 用 ,因此 往往 采用 特殊 的 算法 ,可 以 处 理 特 殊 的 数据 ,实现 特殊 的 目的 ， 
发 现 的 知识 可 靠 度 较 高 ,如 KDI( 零 售 ) Options & Choices( 保 险 ) 和 HNC( 欺 诈 行 为 控 
查 ) 等 。 

各 种 数据 挖掘 工具 各 有 千秋 ,适用 不 同 的 环境 ,了 解 这 些 工具 的 特性 ,并 根据 企业 特点 
选择 合适 的 数据 挖掘 工具 是 一 个 非常 具有 挑战 性 的 问题 。 由 于 各 公司 的 背景 ,财务 .挖掘 水 
平 各 不 相同 ,对 数据 挖掘 工具 的 需求 也 不 尽 相 同 。 目 前 ,国际 上 在 数据 库 .数据 仓库 的 性 能 
评测 方面 最 权威 的 机 构 是 交易 处 理性 能 委员 会 (Transaction Processing Performance 
Council,TPC)。 但 是 ,到 目前 为 止 数 据 挖掘 方面 可 供 参考 的 权威 评估 报告 非常 少 。 最 近 的 
一 份 完 整 而 权威 的 数据 挖掘 工具 评估 报告 是 由 JohnF. ElderIV 和 DeanW. Abbott 在 1998 
年 完成 的 ,可 以 说 它 已 经 过 时 了 。 

一 般 而 言 , 对 数据 挖掘 工具 的 选择 可 考虑 以 下 方面 : 

CD 公司 的 数据 挖掘 需求 期 限 。 如 果 是 短期 行为 ,可 购买 那些 能 解决 特定 问题 的 软件 
包 或 外 包 给 咨询 公司 ; 如 果 是 长 期 使 用 ,需要 购买 功能 较 丰 富 , 使 用 较 方便 ,维护 升级 较 好 
的 企业 型 数据 挖掘 工具 。 

(2) 公司 的 数据 挖掘 经 验 和 水 平 。 公 司 应 该 根据 内 部 数据 挖掘 团队 的 经 验 和 水 平 , 选 
取 一 些 经 过 基本 培训 后 就 能 掌握 的 工具 ,而 不 是 盲目 求 好 ,最 终 导致 因 不 会 使 用 工具 而 将 其 
束之高阁 ,从 而 造成 不 必要 的 浪费 。 在 选择 数据 挖掘 工具 前 ,必须 对 公司 现 有 的 数据 进行 评 
估 。 如 果 不 具 备 针 对 业务 主题 进行 挖掘 (例如 风险 预测 ) 的 数据 或 者 现 有 格式 不 能 满足 数据 
挖掘 工具 的 需求 , 则 需要 数据 具备 后 ,再 考虑 购买 。 

(3) 公司 的 预算 。 当 然 ,在 选择 数据 挖掘 工具 时 ,公司 也 需要 结合 自身 的 财务 预算 做 出 
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(4) 工具 的 性 能 。 好 的 工具 可 以 更 有 效 地 挖掘 出 准确 、 高 价值 的 信息 和 知识 ,所 以 工具 
性 能 的 评估 也 是 相当 重要 。 


5.3.2 kB: 


下 面 将 从 运行 平台 、 易 用 性 、 算 法 .灵活 性 (算法 参数 .选项 等 ) 和 挖掘 过 程 自动 化 等 方 
面 ,对 表 5. 3 中 常见 的 几 种 数据 挖掘 工具 进行 比较 。 


表 5.3 常见 的 数据 挖掘 工具 


产 m ^ gH 主 页 版 本 
SPSS Clementine |Integral Solutions |http://www. isl. co. uk/clem. html 4.0 
Darwin Thinking Machines |http://www. think. com/html/products/products. htm 3.0.1 
Enterprise Miner |SAS Institute http://www. sas. com/software/components/miner. html | Beta 
Intelligent Miner |IBM http://www. software. ibm. com/data/iminer/ 2 
PRW Unica Technologies |http: / /www. unica-usa. com/prodinfo. htm 2.1 
Scenario Cognos http://www. cognos. com/busintell/products/index. html |2 


1. 支持 的 平台 及 数据 库 连 接 

数据 挖掘 工具 所 支持 的 平台 和 数据 库 连 接 是 影响 其 性 能 的 重要 因素 。 一 个 只 有 PC 单 
机 版 的 工具 在 处 理 大 量 数据 时 会 存在 严重 的 效率 问题 ,而 一 个 具有 跨 平台 的 C/S 架构 的 工 
具 可 能 会 具有 更 好 的 扩展 性 (scalability)。 而 从 数据 库 中 存 取 数 据 的 效率 更 是 每 个 数据 挖 
气 工 具 必须 考虑 的 重要 问题 。 常 见 的 数据 挖掘 工具 在 平台 和 数据 库 连 接 方式 上 的 比较 如 表 
5.4 所 示 。 


表 5.4 常见 的 数据 挖掘 工具 在 平台 和 数据 库 连接 方式 上 的 比较 


产 m 单 机 版 C/S 版 数 据 源 
SPSS Clementine PC ffl UNIX 无 ODBC 
Darwin 无 UNIX Server/PC Client ODBC 
UNIX Server/PC Client 和 | ODBC 和 Native Database 
Enterprise Miner PC 
NTServer/PC Client Drivers 
Intelligent Miner PC UNIX Server/PC Client Native Database Drivers 
PRW PC 无 ODBC 
仅 支 持 数据 库 文件 (如 
Scenario PC 无 DBase 等 ) 


可 以 看 到 这 些 数据 挖掘 工具 一 般 都 有 PC 的 单机 版 ,但 并 不 是 每 一 个 都 有 UNIX 平台 
的 Server 端 。 而 且 虽 然 它们 都 可 以 与 数据 库 相 连接 ,但 连接 方式 各 不 相同 ,可 能 会 存在 很 
大 的 效率 差别 (更 具体 的 连接 方式 可 查看 相关 产品 手册 ) 。 

2. 算法 

算法 是 数据 挖掘 工具 的 核心 ,是 区 别 于 其 他 数据 分 析 工 具 的 主要 因素 。 一 个 数据 挖掘 
工具 支持 的 算法 在 很 大 程度 上 体现 了 其 性 能 。 各 种 数据 挖掘 工具 支持 的 主要 算法 如 表 5. 5 


所 示 。 


表 5.5 各 种 数据 挖掘 工具 支持 的 主要 算法 


算 法 SESS) o i Tai PRW aa 
Clementine Miner Miner 
决策 树 有 有 有 有 无 有 
神经 网 络 有 有 有 有 有 无 
回归 分 析 有 无 有 有 有 无 
径 向 基 函 数 
(Radial Basis 无 有 无 有 有 无 
Function,RBF) 
最 近邻 无 无 有 无 有 无 
最 近 均 值 无 无 无 无 有 无 
Kohonen 

自 组 织 映射 有 无 有 无 无 无 
LE 有 无 无 有 有 无 
关联 规则 有 无 无 有 无 无 


K 5.5 中 列 出 的 只 是 所 支持 算法 的 大 致 类 别 ,事实 上 还 有 其 他 算法 类 (如 时 间 序 列 等 ) 。 
而 且 , 对 于 同一 类 算法 各 个 工具 采用 的 具体 算法 也 不 尽 相同 。 由 于 采用 的 算法 不 同 ,它们 表 
现 出 大 不 相同 的 效率 和 结果 。 

在 算法 参数 控制 和 扩展 功能 方面 ,对 比 上 述 数据 挖掘 工具 可 以 发 现 Enterprise Miner 
和 PRW 对 参数 控制 实现 的 较 好 ,而 这 方面 Intelligent Miner 较 弱 。 几 乎 所 有 的 工具 都 提供 
对 决策 树 实数 值 的 处 理 和 图 形 展示 等 功能 ,但 只 有 SPSS Clementine 和 Scenario 较 好 地 实 
现 了 决策 树 的 修剪 功能 。 此 外 ,神经 网 络 的 功能 扩展 方面 也 差别 较 大 。 


3. 易 用 性 


作为 商用 产品 , 易 用 性 是 提高 用 户 满意 度 和 市 场 占有 率 的 重要 因素 。 表 5. 6 从 数据 装 
载 和 操作 、 模 型 建立 ,模型 理解 和 技术 支持 四 个 方面 对 上 述 常 见 数据 挖掘 工具 进行 了 比较 。 


表 5.6 常用 数据 挖掘 工具 在 易 用 性 方面 的 比较 


产 m 数据 装载 和 操作 | 模型 建立 模型 理解 技术 支持 总 体感 觉 
SPSS Clementine 十 十 十 FEF + +++ 十 十 十 
Darwin 十 十 十 十 十 十 十 十 十 L4 
Enterprise Miner 十 十 十 十 十 十 Tc 十 十 
Intelligent Miner Tc Tc Tc 十 十 十 十 
PRW 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 
Scenario ++ F+ EFF Tc 十 十 十 


注 : 十 表示 较 好 ,十 十 表示 好 ,十 十 十 表示 非常 好 。 


显然 它们 都 具有 较 好 的 易 用 性 ,当然 还 是 有 些 差别 的 。 
SPSS Clementine, Enterprise Miner, PRW Scenario 可 以 自动 读 入 数据 的 第 一 行 以 决 
定 域名 和 数据 类 型 ,Darwin 必须 在 一 个 说 明文 件 中 注 明 ,而 Intelligent Miner 则 提供 对 话 
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框 输入 。 各 种 工具 都 提供 对 列 的 操作 (如 创建 新 列 、 合 并 列 等 ) 和 对 行 的 操作 (如 取样 测试 
集 和 训练 集 的 划分 等 ) 。 

与 研究 性 的 平台 相 比 ,可 视 化 是 商用 数据 挖掘 工具 着 重 考 虑 的 方面 。Intelligent 
Miner,Enterprise Miner 和 Scenario 都 具有 图 形 化 的 展示 ,而 SPSS Clementine 和 Darwin 
则 提供 基于 文本 的 规则 说 明 。 对 于 柱状 图 、 饼 图 和 曲线 等 其 支持 程度 也 各 有 不 同 。 

4. 挖掘 自动 化 

这 里 的 挖掘 自动 化 是 指 产品 以 何 种 手段 使 用 户 完成 数据 源 选择 .数据 转换 、 算 法 选择 和 
结果 保存 等 一 系列 步骤 之 间 的 衔接 。 各 种 常见 数据 挖掘 工具 支持 的 手段 如 表 5.7 所 示 。 


表 5.7 常见 数据 挖掘 工具 挖掘 自动 化 的 比较 


DE 对 挖掘 自动 化 的 支持 
SPSS Clementine 支持 可 视 化 编程 和 编程 语言 
Darwin 支持 编程 语言 
Enterprise Miner 支持 可 视 化 编程 和 编程 语言 
Intelligent Miner 仅 提供 向 导 界 面 , 不 支持 编程 
PRW 具有 一 个 实验 管理 组 件 ,支持 宏 
Scenario 自动 化 支持 较 弱 ,很 多 过 程 需 手 工 完成 


SPSS Clementine 和 Enterprise Miner 支持 的 可 视 化 编程 是 指 利 用 拖拉 小 图 标 建 立 连 
接 的 手段 描述 整个 过 程 ,而 IBM 的 Intelligent Miner 则 提供 一 个 向 导 使 用 户 在 每 个 步骤 上 
做 出 选择 。 

表 5.7 给 出 的 并 不 是 所 有 可 能 的 挖掘 自动 化 支持 手段 ,事实 上 有 许多 其 他 工具 包含 强 
大 的 脚本 支持 (CART S-Plus 等 ),S-Plus 甚至 支持 C/C++ 编程 。 

上 述 常用 的 数据 挖掘 工具 各 自 适用 不 同 的 环境 。IBM 的 Intelligent Miner 在 市 场 上 比 
较 领 先 并 提供 良好 的 技术 支持 ; SAS 的 Enterprise Miner 明显 地 偏向 统计 (因此 更 适用 于 
统计 环境 ) 。 在 不 清楚 哪 种 工具 更 好 的 情况 下 Unica PRW 是 较 好 的 选择 ,Cognos Scenario 
则 是 其 数据 仓库 系列 产品 的 重要 组 件 。 


第 6 章 聚 类 分 析 


聚 类 分 析 (clustering analysis) 是 依据 事物 的 某 些 属性 将 其 聚集 成 类 。 使 类 间 相 似 性 尽 
量 小 ,类 内 相似 性 尽量 大 , 即 “ 物 以 类 聚 , 人 以 群 分 ”。 

RKA FF (classification) , 聚 类 是 一 种 无 监督 的 学 习 , 无 需 任何 先 验 知识 ,直接 从 
数据 对 象 中 发 现 有 意义 的 结构 ,输入 对 象 被 划分 到 一 个 未 知 的 类 ; 分 类 则 是 一 种 有 监督 的 
学 习 , 依 据 已 知 的 属性 值 对 对 象 进行 分 类 ,输入 对 象 被 划分 到 一 个 已 预先 定义 的 类 。 

聚 类 一 直 是 生物 学 ,心理 学 .医学 .考古 学 .图 像 处 理 、 市 场 营销 \ 机 器 学 习 、 模 式 识别 、 数 
据 挖掘 及 遥感 等 众多 工程 和 技术 领域 的 研究 热点 。 此 外 , 聚 类 还 可 以 用 作 独 立 的 数据 挖掘 
工具 ,以 了 解数 据 的 分 布 情况 ,或 作为 其 他 数据 挖掘 算法 的 预 处 理 步 骤 等 。 

聚 类 分 析 是 一 个 古老 的 问题 , 它 伴随 着 人 类 社会 的 发 展 而 不 断 深入 。 最 初 , 聚 类 是 统计 
学 的 一 个 分 支 ,如 经 典 的 多 元 统计 法 等 。 随 后 ,提出 了 依据 对 象 属性 值 的 相似 度 实 现 聚 类 的 
相似 聚 类 法 。 相 似 聚 类 法 又 分 为 系统 聚 类 (预先 不 确定 分 类 数目 ) 和 动态 聚 类 (预先 已 确定 
分 类 数目 ) 。 相 似 聚 类 法 有 着 广泛 的 应 用 ,但 同时 也 存在 一 些 不 足 之 处 。 本 质 上 ,相似 聚 类 
法 属于 上 下 文 无 关 的 聚 类 , 即 对 象 间 的 相似 性 度量 完全 依赖 于 对 象 本 身 的 属性 ,并 不 受 其 上 
下 文 的 影响 ,这 对 于 “静态 "数据 的 聚 类 是 可 行 的 ,但 对 于 “动态 ”数据 , 则 聚 类 结果 无 法 令 人 
满意 。 继 而 ,人 们 提出 了 环境 聚 类 法 , 旨 在 将 人 们 的 注意 力 从 客体 的 相似 性 推广 到 相似 性 以 
外 ,尽管 所 得 到 的 类 提供 了 更 多 的 信息 ,但 环境 聚 类 法 与 相似 聚 类 法 一 样 ,都 是 概念 无 关 的 ， 
即 聚 类 结果 不 易 理 解 。 为 了 克服 上 述 局 限 性 ,提出 了 概念 聚 类 ,使 聚 类 的 演化 过 程 发 生 了 质 
的 变化 。 从 概念 聚 类 的 角度 看 ,一 些 对 象 之 所 以 聚 成 一 类 ,一 方面 是 因为 它们 在 某 些 属性 上 
彼此 相似 或 是 与 其 上 下 文 存在 某 种 内 在 的 联系 ; 另 一 方面 是 因为 这 些 对 象 聚 集 在 一 起 可 以 
表达 某 一 概念 ,而 这 一 概念 所 表征 的 是 这 些 对 象 作为 一 个 整体 所 具有 的 共同 性 质 。 概 念 聚 
类 由 两 个 搜索 过 程 组 成 , 即 在 概念 层次 空间 的 搜索 ,以 确定 较 理想 的 概念 层次 结构 ; 在 可 能 
的 聚 类 空间 的 搜索 ,以 确定 较 合适 的 划分 以 及 在 概念 描述 空间 的 搜索 ,为 所 产生 的 聚 类 赋予 
较 合适 的 概念 描述 。 但 是 由 于 搜索 往往 采用 穷尽 法 或 仆 山 法 ,因此 存在 着 提高 搜索 效率 或 
避免 局 部 极 小 值 等 问题 。 

上 述 的 聚 类 方法 均 没有 考虑 到 聚 类 的 目标 ,在 一 定 程度 上 存在 “ 答 非 所 问 ” 的 现象 。 实 
际 中 普遍 使 用 的 是 目标 聚 类 法 ,其 设计 简单 ,应 用 范围 广 , 并 且 可 以 转化 为 优化 问题 ,借助 于 
经 典 的 非 线性 规划 方法 求解 ,便于 计算 机 实现 ,因此 目标 聚 类 法 是 聚 类 研究 的 热点 。 

同时 , 聚 类 也 是 一 个 困难 的 问题 。 它 运用 数学 方法 研究 和 处 理 所 给 对 象 的 分 类 以 及 各 
类 别 之 间 的 亲 政 程 度 , 是 在 对 数据 不 做 任何 假设 的 前 提 下 进行 分 析 。 在 人 工 智 能 和 模式 识 
别 领 域 , 聚 类 亦 称 为 无 先 验 学 习 或 无 监督 学 习 。 此 外 ,现实 世界 中 许多 事物 之 间 并 无 明显 的 
划分 ,彼此 之 间 的 关系 具有 一 定 的 模糊 性 和 不 确定 性 ,需要 将 模糊 集合 理论 引入 聚 类 , 即 所 

按照 划分 的 结果 , 聚 类 可 分 为 硬 聚 类 和 模糊 聚 类 两 种 。 硬 聚 类 是 指 每 个 对 象 仅 属 于 距 
离 最 近 的 聚 类 中 心 所 属 的 类 , 非 此 即 彼 。 例 如 硬 c- 均 值 (Hard c-means, HCM) 和 Kohonen 
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学 习 矢 量 量化 (Learning Vector Quantization ,LVQ) 等 ; 模糊 聚 类 是 指 每 个 对 象 以 不 同 的 
隶属 度 或 概率 属于 一 个 或 多 个 类 ,如 模糊 c- 均 值 (Fuzzy c-means. FCMD 。 显 然 , 硬 聚 类 是 模 
糊 聚 类 的 一 个 特例 。 

下 面 将 分 别 介绍 硬 聚 类 和 模糊 聚 类 。 


6.1 硬 聚 类 


6.1.1 算法 种 类 


目前 聚 类 算法 已 有 上 百 种 之 多 ,而 且 还 有 许多 新 方法 不 断 涌 现 。 概 括 而 言 , 聚 类 算法 主 
要 分 为 以 下 几 类 : 

1. 基于 划分 的 聚 类 算法 

给 定 一 个 n 个 对 象 或 元 组 的 数据 集合 ,划分 法 构造 数据 的 & 个 划分 ,每 个 划分 代表 一 个 
聚 艇 ,并 且 k 三 n。 首 先 给 定 一 个 划分 数目 ,创建 一 个 初始 划分 ,然后 利用 迭代 ,通过 对 象 在 
划分 间 移 动 以 改进 划分 。 为 了 达到 全 局 最 优 , 划 分 法 可 能 穷 举 所 有 可 能 的 划分 。 实 际 上 , 往 
往 采 用 如 下 的 启发 式 搜索 方法 , 即 : 

CD 均值 法 该 算法 中 每 一 筷 用 该 簇 对 象 的 平均 值 表示 ,使 所 有 对 象 到 聚 类 中 心 的 
距离 平方 和 最 小 。 

(2) k 中 心 点 算法 “该 算法 中 每 一 徐 用 接近 聚 类 中 心 的 一 个 对 象 表示 。 

上 述 两 种 方法 对 于 小 的 数据 集合 非常 有 效 。 为 了 处 理 大 规模 数据 集 ,出 现 了 CLARA, 
CLARANS 等 改进 算法 。 此 外 ,ISODATA 也 是 一 种 自动 进行 类 的 合并 和 分 裂 的 基于 划分 
的 聚 类 方法 。 

基于 划分 的 聚 类 算法 适用 于 凸 集 (如 图 6. 1 所 示 ) .类 间距 较 远 且 类 直径 相差 不 悬殊 的 
情况 ,否则 会 出 现 错误 。 
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(a) 凸 集 (b) 非 凸 集 
图 6.1 凸 集 和 非 凸 集 


本 质 上 ,概念 聚 类 是 基于 划分 的 聚 类 的 一 种 延伸 , 它 用 描述 对 象 的 一 组 概念 取 值 将 数据 
划分 为 不 同 的 类 ,而 不 是 基于 几何 距离 实现 对 象 之 间 的 相似 性 度量 。 概 念 聚 类 能 够 输出 不 
同类 以 确定 其 属性 特征 的 覆盖 ,并 对 聚 类 结果 进行 解释 。 

2. 基于 层次 的 聚 类 算法 

基于 层次 的 聚 类 算法 是 指 对 给 定数 据 集 进行 层次 分 解 。 根 据 层次 形成 的 方式 不 同 , 分 
为 凝聚 (agglomerative or merging) MYA (divisive or splitting) 两 种 方式 ,如 图 6. 2 所 示 。 

其 中 ,凝聚 是 指 首先 将 每 个 对 象 作 为 单独 的 一 簇 ,然后 相继 合并 相近 的 对 象 或 秘 , 直 到 
所 有 的 簇 合并 为 一 个 ,或 者 满足 终止 条 件 ; 分 裂 是 指 首 先 将 所 有 对 象 置 于 一 个 徐 中 oil ES 


m 
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图 6.2 基于 层次 的 聚 类 中 的 凝聚 和 分 裂 


代 逐 步 将 一 个 簇 分 裂 为 更 小 的 篮 。 

根据 不 同 的 篮 间 距离 度量 方法 ,基于 层次 的 聚 类 分 为 不 同 的 种 类 ,常用 的 距离 度量 方法 
包括 最 小 距离 .最 大 距离 平均 值 距离 和 平均 距离 等 。 

基于 层次 的 聚 类 算法 无 需 参 数 ,但 需要 定义 终止 条 件 。 其 缺点 是 一 旦 一 个 步骤 (凝聚 或 
分 裂 ) 完 成 , 则 不 能 被 撤销 。CURE Chameleon 和 BIRCH 等 均 为 改进 的 基于 层次 的 聚 类 算 
法 。 其 中 ,Chameleon 是 一 种 凝聚 的 层次 聚 类 算法 ,算法 实现 包括 两 个 阶段 , 即 首先 将 数据 
集 划 分 为 多 个 子 集 , 然 后 将 这 些 子 集 进行 反复 的 合并 ,直至 获得 最 终 的 聚 类 结果 ,如 图 6. 3 
所 示 。 


构建 稀疏 图 将 该 图 分 成 子 集 得 * 
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合并 子 集 
最 终 的 聚 类 结果 
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6.3 CHAMELEON 算法 示意 图 


CURE 算法 如 图 6.4 所 示 , 其 中 s==50,p 二 2,s/p 二 25,g 二 5。 具 体 的 算法 步骤 如 下 : 
(1) 随机 选取 s 个 样本 。 

(2) 将 所 有 样本 划分 为 p 个 徐 , 每 个 簇 样本 数 是 s/p。 

(3) 将 每 一 入 划分 为 g 个 子 集 ,每 一 子 集 样本 数 是 s/ pg. 

(4) 删除 孤立 点 数据 。 
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。 如 果 一 个 簇 变化 缓慢 , 则 删除 该 簇 。 

(5) 合并 其 中 的 部 分 子 集 。 

基于 层次 的 聚 类 算法 适用 于 具有 树枝 状 结构 的 数据 集合 。 

3. 基于 密度 的 聚 类 算法 

这 类 算法 的 思想 是 只 要 某 簇 邻 近 区 域 的 密度 超过 设 定 的 国 值 , 则 扩大 簇 的 范围 ,继续 聚 
类 。 这 类 算法 可 以 得 到 任意 形状 的 簇 ,典型 算法 包括 DBSCAN (Density-based Spatial 
Clustering of Applications with Noise) .OPTICS ftl DENCLUE 等 。 

4. 基于 网 格 的 聚 类 算法 

基于 网 格 的 聚 类 算法 首先 将 问题 空间 量化 为 有 限 数目 的 单元 ,形成 一 个 空间 网 格 结构 ， 
随后 聚 类 在 这 些 网 格 之 间 进 行 。 其 特点 是 聚 类 速度 较 快 ,典型 算法 包括 STING, 
WareCluster 和 CLIQUE 等 。 

5. 基于 模型 的 聚 类 算法 

基于 模型 的 聚 类 算法 是 指 为 每 个 簇 假定 一 个 模型 ,寻找 数据 对 给 定 模型 的 最 佳 拟 合 。 
典型 算法 包括 COBWEB 和 神经 网 络 等 。 

上 述 算法 均 属 于 传统 聚 类 的 范畴 。 一 般 地 ,传统 聚 类 算法 对 于 维度 较 低 的 数据 集 有 效 ， 
而 当 维 度 增加 时 ,可 能 就 不 适用 了 。 

针对 大 型 数据 库 的 聚 类 已 提出 了 很 多 方法 。 例如 ,基于 随机 搜索 的 聚 类 方法 
CLARANS .聚焦 方法 和 聚 类 特征 树 法 BIRCH (平衡 迭 代 消 减 聚 类 法 ) 等 。CLARANS 要 求 
待 聚 类 的 对 象 必须 事先 调和 内存, 这 对 于 大 型 数据 库 不 太 适 用 ; 聚焦 方法 通过 引入 R 树 ,能 


够 处 理 基 于 磁盘 的 大 型 数据 库 , 但 是 R 树 的 构造 和 维护 代价 太 大 ; BIRCH 则 是 一 种 较为 灵 
活 的 递增 式 聚 类 方法 ,采用 一 个 聚 类 特征 三 元 组 概括 一 篮 对 象 的 相关 信息 ,从 而 以 对 应 的 聚 
类 特征 表示 一 簇 对 象 而 不 是 以 具体 的 一 组 对 象 表 示 ,通过 构造 满足 分 支 因 子 和 艇 直径 阔 值 
的 聚 类 特征 树 实现 聚 类 。BIRCH 算法 需要 提供 适当 的 参数 一 聚 类 个 数 和 艇 直径 阔 值 ,这 
对 于 不 具有 可 视 化 的 高 维 数据 是 不 可 行 的 ,而 且 对 于 一 般 的 用 户 难 以 确定 艇 直径 阔 值 。 
Agrawal 提出 的 CLIQUE 算法 ,利用 自 顶 向 下 方法 求 出 各 个 子 空间 的 聚 类 单元 。CLIQUE 
算法 主要 用 于 发 现 高 维 数据 空间 中 存在 的 低 维 聚 类 ,为 了 求 出 k 维 空间 的 聚 类 ,必须 组 合 
出 所 有 kk 一 1 维 子 空 间 的 聚 类 ,导致 其 算法 的 空间 和 时 间 效 率 都 较 低 ,而 且 要 求 用 户 输入 
数据 空间 等 间隔 距离 和 密度 阔 值 两 个 参数 ,这 些 参数 与 样本 数据 紧密 相关 ,一 般 用 户 难 
以 确定 。 


6.1.2 相似 度 计算 


在 各 种 聚 类 算法 中 ,数据 对 象 之 间 特 征 差异 通常 是 借助 量化 指标 加 以 表征 , 称 之 为 聚 类 
统计 量 。 聚 类 统计 量 主 要 包括 : 距离 或 相似 度 。 

通常 ,数据 对 象 采用 矢量 表示 , 即 通过 一 个 在 多 维 空间 中 的 矢量 描述 一 个 对 象 多 方面 的 
特征 。 矢 量 的 每 个 维度 描述 对 象 的 一 个 特征 ,多 个 对 象 的 矢量 构成 一 个 模式 矩阵 (pattern 
matrix), 其 中 每 行 代表 一 个 对 象 ,每 列 描述 一 个 特征 , 即 (zy )m HEP n NOSE SOC m 为 特征 
数 ,zxi 为 撩 量 特征 值 。 由 于 不 同 的 特征 采用 不 同 的 度量 标准 ,这 将 对 聚 类 结果 产生 影响 ,为 
此 通常 需要 进行 正规 化 ,使 所 有 的 特征 能 用 一 个 共同 的 标准 度量 。 以 下 是 一 些 常 用 的 正规 
化 方法 : 


二 一 (6.1) 
747 max | xy | ` 
将 所 有 的 特征 归 一 化 到 [一 1,1] 区 间 。 
标准 差 正规 化 
= (6.2) 


Jesu, = E Desa = T [35s 一 六 六， 可 合 正 态 分 布 的 特征 取 值 主要 集中 在 


[71.1] 区 间 。 


=a A (6.3) 


is is 
其 中 ,jy DE eu | zs Hj l 
i=l i=l 


与 式 (6. 2) 相 比 , 具 有 更 大 的 适用 范围 ,因此 受 噪声 的 干扰 较 小 。 
极 差 正规 化 
rg — min {zs} 
z= maxlas) — minis] (6.4) 
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原理 及 应 用 


将 所 有 的 特征 归 一 化 到 [0,1] 区 间 。 
正规 化 后 ,最 常用 的 对 象 间距 离 计算 公式 包括 : 
CD 欧 氏 距离 ,其 定义 为 : 
dg — J| xa —zà V | xa — xg l | x — x | (6.5) 
HEP iS Gea exa ett tp) P — Gea eam e ,zis) 分 别 是 两 个 p 维 的 数据 对 象 。 
(2) 曼哈顿 距离 (又 称 绝对 距离 ) ,其 定义 为 : 


ds =| xa — za | 十 | xa — xg |+ +l Tip — zip | (6.6) 
(3) 明 考 斯 基 距 离 ,是 欧 氏 距离 和 曼哈顿 距离 的 概 化 ,其 定义 为 : 
n Vr 
4 =| È i-r] (6. 7) 
k-1 


其 中 y0. 

nn 个 对 象 彼此 之 间 的 相似 度 可 通过 相似 度 矩 阵 (similarity matrix) Cry )m 表示 , 它 是 一 
个 nxn 维 、 对 角 线 元 素 为 1 的 对 称 矩 阵 , 其 中 xj 是 对 象 i 和 jj 之 间 相似 度 的 量化 表示 ,通常 
其 值 是 非 负 的 。 对 象 i 和 j 关系 越 亲密 ,其 绝对 值 越 接近 于 1; 彼此 关系 越 疏 远 , 其 值 越 接 
近 于 0。 对 象 之 间 常 用 的 相似 度 计算 方法 包括 夹 角 余弦 法 、 相 关系 数 法 和 指数 相似 系数 


法 等 。 
夹 角 余弦 法 
D tata 
rj = cosa; TL U (6.8) 
(E434) 
k=1 k-l 
其 中 ,ww 为 矢量 ;一 (zayza,…zm) 和 J 一 (zyza ,Zim) 之 间 的 夹 和 角 。 
相关 系数 法 
È za — m || xa — a; | 
Tä x m 12 (6. 9) 
[Xo —z) Y) -z| 
k=1 k=1 
指数 相似 系数 法 
m -- 2 
rg = Vm 3 exp[- e] (6. 10) 


为 了 实现 自动 聚 类 ,首先 定义 相似 度 度量 ,无论 采用 哪 种 度量 方法 有 一 点 是 明确 的 , 即 
相似 度 的 度量 与 具体 问题 有 关 ,给 出 通用 的 度量 十 分 困难 。 例 如 ,采用 欧 氏 距离 度量 相似 度 
的 聚 类 是 将 聚 类 对 象 看 做 若干 超 球体 的 集合 ,适用 于 数据 特征 空间 呈 超 球体 的 聚 类 。 实 
际 上 ,这 一 度量 方法 对 于 沿 主轴 分 布 的 情况 则 是 无 用 的 甚至 是 不 合理 的 。 又 如 ,实数 集 
合 的 聚 类 结构 表现 为 超 椭 球体 ,因此 对 于 数据 分 布 呈 超 椭 球 体 的 情况 ,常常 采用 马 氏 
(Mahalanobis) 距 离 , 即 : 

D(zsm) = (r—m)Z'r—m (6.11) 

其 中 ,3 是 该 聚 类 群体 的 协 方差 矩阵 ,m 为 平均 矢量 ,z 代表 该 聚 类 。 

采用 Mahalanobis 距离 的 主要 困难 在 于 : 每 当 改变 某 聚 类 范围 时 ,都 需要 计算 一 次 样 


本 协 方差 矩阵 的 逆 。 以 Mahalanobis 距离 为 相似 度 度量 的 自 组 织 神经 网 络 实现 分 布 呈 超 椭 
球体 的 聚 类 (Hyper-ellipsoidal Clustering. HEC) 可 减少 计算 量 。HEC 分 为 两 层 : 第 一 层 由 
大 量 的 主 成 分 分 析 子 网 组 成 ,以 判断 当前 已 形成 的 分 布 为 超 椭 球体 的 聚 类 ; 第 二 层 则 是 利 
用 第 一 层 所 提供 的 聚 类 信息 进行 竞争 学 习 。 该 方法 不 需要 计算 样本 协 方差 矩阵 的 逆 。 但 
是 , 若 学 习 参 数 选择 不 当 , 则 实现 主 成 分 分 析 的 子 网 达到 收敛 需要 较 长 的 时 间 。 


6.1.3 实现 方法 


聚 类 的 实现 方法 可 概括 为 三 种 , 即 : 

1. 基于 目标 函数 迭代 的 实现 

在 优化 目标 函数 的 过 程 中 ,人 们 曾经 尝试 动态 规划 分 支 定 界 和 凸 切割 等 方法 ,然而 大 
量 的 存储 空间 和 运行 时 间 限 制 了 其 应 用 。 实 际 应 用 最 为 广泛 的 是 Dunn 提出 的 迭代 优化 算 
法 一 -k 均 值 。 本 质 上 ,从 代 优化 属于 局 部 搜索 的 “ 疏 山 法 ”, 易 陷入 局 部 极 值 ,对 初 值 也 较 
敏感 。 

JE BERE n PER rj € 9G —1.2. MRA c 2E E i— 1.2. c 和 j= 二 1,2,…,n 可 
JEX: 

1， 如 果 第 7 个 样本 属于 第 i 类 


ti 一 (6. 12) 
0， 其 他 
WA E y= Cus) A WF YER 
u € (0,1) B =1, jo. (6.13) 
i=l 
设 n; 表示 第 i 类 中 所 包含 的 样本 个 数 , 则 
ni = S s i= 1,2,,c (6.14) 
j=1 
Ws EWER i 类 的 中 心 , 则 
E. DJ pz n 
z = E = i Dms i= ye (6.15) 
2n S 
故 第 i 类 的 类 内 差 为 : 
Se (py) = l z; — z; |l? (6.16) 
整体 类 内 差 为 : 
SQ) = Ds 0 = y py lc; — a |l? (6.17) 


3X C6. 17) 为 经 典 的 类 内 平方 误差 和 (Within-group Sum of Squared Error. WGSS) 目标 
函数 。k 均值 旨 在 通过 和 迭代 优化 寻找 yj ,使 得 SG) 取 最 小 值 , 即 : 

S(u;) = min{S(p)} (6.18) 

由 式 (6.18) 可 知 , 当 各 样本 独自 成 为 一 类 时 , 即 c=n.S(y) 取 最 小 值 90。 因此 仅仅 凭借 
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该 目标 函数 是 无 法 找到 最 优 分 类 的 ,必须 考虑 其 他 条 件 , 即 寻找 一 个 合适 的 目标 函数 。k 均 
值 是 在 给 定 c 的 前 提 下 ,优化 S(y)。 因 此 ,对 聚 类 个 数 c 而 言 , 本 质 上 是 一 种 枚 举 法 。 

2. 基于 神经 网 络 的 实现 

采用 神经 网 络 实现 聚 类 的 显著 优势 在 于 神经 网 络 的 并 行 处 理 能 力 。 因 为 在 数据 量 庞大 
的 情况 下 进行 聚 类 相当 耗 时 。 

Kohonen 学 习 矢 量 量化 和 自 组 织 特征 映射 在 经 典 模式 识别 领域 中 的 一 个 重要 应 用 就 
是 聚 类 。 近 年 来 ,Kohonen 受到 普遍 关注 ,然而 Kohonen 聚 类 网 络 (Kohonen Clustering 
Network.,KCN) 启 发 式 的 演化 过 程 使 其 在 应 用 中 存在 着 网 络 收敛 依赖 于 输入 样本 顺序 以 及 
难以 保证 收敛 等 若干 致命 的 问题 。 一 些 学 者 基于 不 同 的 角度 和 背景 ,提出 了 改进 算法 ,但 仍 
存在 某 些 缺 陷 。 后 来 ,提出 了 一 种 用 于 超 椭 球 体 聚 类 的 神经 网 络 , 它 能 自 适 应 地 估计 每 一 类 
超 椭 球体 形状 ,并 将 所 得 到 的 信息 用 于 竞争 学 习 , 通 过 引入 正规 化 的 Mahalanobis 距离 , 防 
止 过 大 或 过 小 类 的 产生 。 此 外 还 提出 了 一 种 带 惩罚 项 的 竞争 学 习 算 法 。 

3. 基于 进化 计算 的 实现 

进化 计算 是 建立 在 生物 进化 基础 上 的 基于 自然 选择 和 群体 遗传 机 制 的 随机 搜索 算法 。 
由 于 具有 全 局 并 行 搜索 的 特点 ,因此 可 以 较 高 的 概率 获得 全 局 最 优 解 。 此 外 ,进化 计算 还 具 
有 简单 .通用 和 和 鲁 棒 性 等 优势 。 所 以 ,人 们 将 进化 计算 引入 聚 类 ,形成 了 一 系列 基于 进化 计 
算 的 聚 类 算法 。 它 们 大 致 可 分 为 两 类 : 一 是 基于 模拟 退火 (Simulated Annealing, SA) 的 方 
法 ; 二 是 基于 遗传 算法 和 进化 策略 的 方法 。 

表 6.1 列 出 了 上 述 三 种 聚 类 实现 方法 的 比较 。 

表 6.1 三 种 聚 类 实现 方法 的 比较 


技术 指标 基于 目标 函数 迭代 的 实现 | 基于 神经 网 络 的 实现 基于 进化 计算 的 实现 
搜索 方法 梯度 下 降 法 梯度 下 降 法 随机 搜索 法 
收敛 速度 较 快 快 慢 
算法 精度 高 较 高 受 编码 长 度 的 限制 
算法 结构 串 行 并 行 并 行 
初 值 敏感 度 敏感 敏感 不 敏感 

6.1.4 主要 算法 


下 面 介绍 硬 聚 类 的 一 些 主要 算法 。 

1. 基于 目标 函数 的 聚 类 

基于 目标 函数 的 聚 类 主要 包括 k 均值 k 中 心 点 和 均值 等 算法 。 

1) k 均值 

k 均值 也 称 为 硬 c 均值, 该 算法 首先 由 Mac Queen 提出 ,是 一 种 基于 划分 而 非 分 层 的 聚 
类 方法 。k 均值 的 基本 思想 是 : 首先 随机 地 选择 个 对 象 ,每 个 对 象 初始 地 代表 一 个 簇 的 
平均 值 或 中 心 。 对 于 其 余 的 每 个 对 象 ,根据 其 与 簇 中 心 的 距离 ,将 它 划 分 到 最 近 的 焦 。 然 后 
重新 计算 每 个 簇 的 平均 值 。 此 过 程 不 断 迭 代 , 直 到 目标 函数 (或 称 为 相似 度 函 数 ) 收 敛 , 即 
式 (6.19) 中 的 函数 值 最 小 。 


k 
E=), 2 1p—m|’ (6.19) 


i=1 pECi 

式 (6.19) 中 ,E 是 所 有 对 象 的 误差 平方 总 和 ,ms; Je C; 的 平均 值 ,p 是 空间 中 的 点 (p 
和 wm; 都 是 多 维 的 ) ,此 目标 函数 试图 使 生成 的 簇 尽 可 能 地 独立 和 紧凑 。k 均值 是 将 个 对 
象 划 分 为 & MEE ,使 簇 内 的 相似 度 较 高 ,而 簇 间 的 相似 度 较 低 。 

k 均值 聚 类 算法 的 步骤 如 下 : 

输入 : 聚 类 数目 k, 包含 n 个 对 象 的 数据 集合 

输出 : 各 对 象 属于 k 个 簇 的 信息 

1 随机 选择 k 个 对 象 作为 初始 的 簇 中 心 

2 将 剩余 的 n 一 k 个 对象 按 照 与 徐 中 心 的 距离 划分 到 最 近 的 簇 

3 Repeat 
4 计算 各 个 簇 中 对 象 各 属性 的 平均 值 , 作为 新 的 簇 中 心 
5 重新 将 n 个 对 象 按照 与 簇 中 心 的 距离 划分 到 最 近 的 簇 
6 Until 簇 中 心 不 再 变化 

k 均值 是 一 种 经 典 算 法 ,其 主要 优点 是 算法 简单 .快速 而 且 能 有 效 地 处 理 大 数据 量 。 但 
是 此 算法 对 不 同 的 初始 值 可 能 会 导致 不 同 的 聚 类 结果 ,执行 结果 与 输入 顺序 有 关 。 其 次 ,这 
种 算法 易 陷入 局 部 极 小 值 。 这 两 大 缺陷 大 大 限制 了 其 应 用 范围 。 

2) k 中 心 点 

k 中 心 点 是 对 均值 的 改进 。 不 采用 簇 中 对 象 的 平均 值 作为 参照 点 ,而 是 选用 簇 中 位 
置 最 中 心 的 对 象 , 即 中 心 点 。 这 样 的 划分 方法 依然 是 基于 最 小 化 所 有 对 象 与 其 参照 点 之 间 
的 相 异 度 之 和 的 原则 进行 的 。 

k 中 心 的 基本 思想 是 : 首先 为 每 个 簇 随机 地 选取 一 个 数据 对 象 作为 中 心 点 ,将 剩余 的 
数据 对 象 依照 距离 的 远近 分 配给 最 近 的 徐 ; 随后 选取 其 他 的 非 中 心 点 数据 做 中 心 点 ,并 查 
看 聚 类 情况 。 如 果 替 换 的 聚 类 总 代价 小 于 零 , 则 执行 替换 直到 中 心 点 不 再 发 生变 化 , 即 达 到 
代价 最 小 值 时 停止 算法 。 

k 中 心 点 聚 类 算法 的 步骤 如 下 : 

输入 : 聚 类 数目 k, 包含 n 个 对 象 的 数据 集合 

输出 : 各 对 象 属 于 k 个 簇 的 信息 

1 随机 选择 个 对 象 作为 初始 的 簇 中心 点 

2 Repeat 

3 将 非 中 心 点 的 对 象 依照 与 各 簇 中 心 点 的 距离 划分 到 最 近 的 簇 

4 随机 地 在 非 中 心 点 中 选择 一 个 对 象 

5 计算 使 用 该 点 做 中 心 点 来 代替 原 中 心 点 的 代价 S 

6 If S<0 Then 用 该 点 替换 原 中 心 点 ,形成 新 的 簇 

7 Until 簇 中 心 点 不 再 发 生变 化 

3) c 均值 

c 均 值 聚 类 算法 的 步骤 如 下 : 

输入 : 聚 类 数目 k, 包含 n 个 对 象 的 数据 集合 


输出 : 各 对 象 属于 上 个 能 的 信息 
1 随机 选择 k 个 对 象 作 为 初始 的 聚 类 中 心 cl vczv … ,cx 
M Tim 


zy E dusteri 
i 
Cim = 


2 将 每 个 对 象 的 向 量 x = [ za ,ze,…,zn ], 其 中 为 向 量 的 维 数 , 按 欧 氏 距 离 | xi - ci |‖ = 

nin | xi = ci | 归 入 聚 类 中 心 为 c; 的 类 

3 重新 调整 聚 类 中 心 cs, 令 cs = [cuvcavcu], 其 中 ,W; 是 第 i 个 类 别 中 的 向 量 数 

4 如 果 步 骤 3 中 的 聚 类 中 心 不 再 变化 , 则 算法 停止 ; 否则 , 转 至 步骤 2 

2. 基于 神经 网 络 的 聚 类 

基于 神经 网 络 的 聚 类 主要 包括 竞争 学 习 (competitive learning) 和 自 组 织 映射 (Self 
Organizing Maps,SOM) 等 方法 ,都 涉及 竞争 的 神经 元 。 

1) 竞争 学 习 

前 馈 神 经 网 络 的 竞争 式 学 习 规 则 是 由 Rumelhart 和 Zipser 提出 的 ,由 若干 个 单元 ( 神 
经 元 ) 组 成 层次 结构 ,以 一 种 “ 胜 者 全 取 ” 实 现 竞 争 。 竞争 学 习 中 各 层 之 间 的 联接 是 激发 式 
的 , 即 在 某 个 给 定 层次 的 单元 可 以 接受 来 自 低 一 层次 所 有 单元 的 输入 ,在 一 层 中 活动 单元 的 
布局 代表 了 高 一 层 的 输入 模式 。 在 某 个 给 定 层次 中 ,一 个 簇 中 的 单元 彼此 竞争 ,对 低 一 层 的 
输出 模式 做 出 反应 。 任 何 簇 中 只 有 一 个 单元 是 活路 的。 获胜 的 单元 修正 其 与 徐 中 其 他 单元 
的 连接 权重 ,以 便 在 未 来 能 够 对 与 当前 对 象 一 样 或 相似 的 对 象 做 出 较 强 的 反应 。 如 果 将 权 
重 看 作 一 个 标本 ,那么 新 的 对 象 将 被 划分 到 具有 最 近 标 本 的 簇 。 

聚 类 结束 后 ,每 个 簇 被 认为 是 一 个 新 的 “特征 ”, 代 表 对 象 的 某 些 规律 ,因此 产生 的 簇 可 
以 看 作 一 个 低层 特性 向 高 层 特性 的 映射 。 

2) SOM 

SOM 是 神经 网 络 最 重要 的 模型 之 一 ,1982 年 由 Kohonen 基于 对 生物 神经 活跃 区 域 的 
模拟 提出 的 。 它 是 一 种 无 监督 的 聚 类 方法 ,通过 反复 学 习 和 若干 个 单元 的 竞争 实现 聚 类 。 
权重 向 量 最 接近 当前 对 象 的 单元 成 为 活跃 或 获胜 单元 。 为 了 更 接近 输入 对 象 , 对 获胜 单元 
及 其 最 近邻 的 权重 进行 调整 。SOM 假设 在 输入 对 象 中 存在 一 些 拓扑 结构 或 顺序 ,单元 将 最 
终 在 空间 呈现 这 种 结构 。 单 元 的 组 织 形成 一 个 特性 映射 。SOM 被 认为 类 似 于 大 脑 的 处 理 
过 程 ,对 在 二 维 或 三 维 空间 中 可 视 化 高 维 数据 是 很 有 用 的 。 

SOM 由 输入 层 .竞争 层 和 输出 层 组 成 。 输 入 层 结 点 的 数目 同 输入 对 象 的 特征 向 量 维度 
相同 ,输出 层 的 每 个 结 点 都 是 一 个 含有 同 输入 层 结 点 个 数 相同 维度 的 向 量 。SOM 网 络 是 全 
连接 的 ,每 个 输入 结 点 都 与 所 有 的 输出 结 点 连接 。 

假定 输入 向 量 维度 为 N, 输 出 结 点 数 为 M。SOM 算法 的 描述 如 下 : 

CD 建立 一 个 有 M 个 输出 结 点 的 二 维 网 格 ,初始 化 从 N 个 输入 层 结 点 到 M 个 输出 层 
结 点 的 权 值 wi 为 [0,1j 之 间 的 随机 数 ; 

(2) 输入 N 维 的 向 量 ; 

G) 计算 输入 向 量 在 时 刻 1 到 所 有 输出 结 点 的 距离 , 即 


N-—1 
d; = 9G Q) — ws (G)»* (6. 20) 
i=0 


其 中 ,zy 为 输出 结 点 的 权 值 ,z;(2) 是 输入 向 量 在 时 刻 上 的 值 ; 
(4) 选择 获胜 结 点 并 更 新 它 和 邻近 结 点 的 权 值 。 
选择 产生 最 小 d; 的 结 点 为 获胜 结 点 j ,并 更 新 其 及 邻近 结 点 的 权 值 以 减 小 到 输入 向 量 
Zzi(t) 的 距离 , 即 : 
wy (t+1) = wD) +a) GG) — wy (0)) (6.21) 


每 次 更 新 后 ,) 及 其 邻近 结 点 都 会 更 接近 输入 向 量 x; (1)。a(7) 是 误差 调整 系数 ,0 一 
ab 一 1, 并 且 随 时 间 1 单调 减 小 ,w; 的 调整 也 越 来 越 小 ,直至 收敛 。 

SOM 以 其 无 监督 ,可视化 等 特性 ,广泛 应 用 于 聚 类 分 析 、 图 像 处 理 、 语 音 识别 ,组 合 优化 
和 数据 挖掘 等 众多 领域 。 然 而 ,传统 的 SOM 也 存在 许多 不 足 , 其 最 大 局 限 性 是 在 学 习 样 本 量 
较 少 时 ,网 络 连 接 权 重 的 初始 值 对 收敛 性 影响 很 大 ,而 且 聚 类 效果 取决 于 样本 的 输入 顺序 。 

3. 基于 进化 计算 的 聚 类 

进化 计算 是 建立 在 生物 进化 基础 上 的 基于 自然 选择 和 群体 遗传 机 制 的 随机 搜索 算法 。 
由 于 有 具有 全 局 并 行 搜索 的 特点 ,因此 可 以 较 高 的 概率 获得 全 局 最 优 解 。 此 外 ,进化 计算 还 具 
有 简单 .通用 和 和 鲁 棒 性 等 优势 。 所 以 ,人 们 将 进化 计算 引入 聚 类 ,形成 了 一 系列 基于 进化 计 
算 的 聚 类 算法 。 基 于 进化 计算 的 聚 类 大 致 可 分 为 两 类 : 一 是 基于 模拟 退火 (Simulated 
Annealing,SA) 的 方法 。 确 定性 退火 技术 是 美国 的 K. Rose 博士 于 1990 年 首先 提出 的 ,已 
得 到 了 一 些 比较 满意 的 理论 结果 。 后 来 提出 了 一 种 利用 确定 性 退火 的 启发 式 聚 类 算法 ,把 
聚 类 问题 看 作 是 一 个 物理 系统 ,通过 求解 一 系列 随 温度 变化 的 自由 能 量 函 数 的 全 局 极 小 获 
得 聚 类 的 最 优 解 。 但 是 ,模拟 退火 算法 只 有 当 温 度 下 降 得 足够 慢 时 才能 收敛 到 全 局 最 优点 ， 
大 量 的 运算 时 间 限 制 了 其 实用 性 ; 二 是 基于 遗传 算法 和 进化 策略 的 方法 。 

常用 的 进化 算法 和 策略 包括 模拟 退火 .遗传 算法 、 蚁 群 算法 和 粒子 群 优化 算法 等 。 

1) 模拟 退火 

SA 算法 的 出 发 点 是 物理 中 固态 物质 的 退火 过 程 与 一 般 组 合 优化 问题 之 间 的 相似 性 。 
固态 物质 退火 时 ,通常 先 将 之 加 温 , 使 其 中 的 粒子 能 够 自由 移动 ,然后 逐渐 降低 温度 ,粒子 也 
逐渐 形成 低能 态 的 晶 格 。 若 在 凝结 点 附近 温度 的 下 降 速 度 足 够 慢 , 则 固态 物质 一 定 会 形成 
最 低能 量 的 基态 。 

SA 算法 中 固体 状态 对 应 组 合 最 优 问 题 的 可 行 解 ,最 低能 量 的 基态 对 应 最 优 解 ,逐渐 降 
低温 度 的 过 程 对 应 控制 参数 的 下 降 。SA 首先 由 某 一 较 高 初始 温度 开始 ,伴随 温度 参数 的 
不 断 下 降 重 复 抽 样 ,最 终 获得 问题 的 全 局 最 优 解 。SA 包括 一 个 温度 持续 下 降 的 过 程 ,能 够 
避免 局 部 最 小 ,是 一 个 基于 概率 的 全 局 最 优 启发 式 方法 。 

在 温度 TT 时 ,由 当前 状态 i 产生 新 状态 j ,两 者 的 能 量 分 别 为 E; HIE; . d E; E, UE 


受 新 状态 ) 为 当前 状态 ; 否则 , 若 概 率 exe( Pig ] 大 于 [0,1) 区 间 内 的 随机 数 , 则 仍旧 


接受 新 状态 ) 为 当前 状态 ， 若 不 成 立 , 则 保留 状态 ; 为 当前 状态 。exp( P Pre 


Boltzmann 常量 。 这 种 方法 使 得 能 量 为 E; 的 状态 成 为 当前 状态 的 概率 是 : 
expC— E;/RT) 
3 expC— E;/kT) 

这 一 概率 函数 称 为 Boltzmann 浓度 ,其 特点 是 对 于 较 高 的 温度 ,每 一 状态 都 具有 相同 的 概 
率 成 为 当前 状态 ,而 对 于 较 低 的 温度 ,仅仅 那些 低能 量 的 状态 才 具 有 较 高 的 概率 成 为 当 
前 状态 。 

标准 SA 算法 的 步骤 如 下 : 

(D 随机 产生 一 个 初始 状态 S ,Si= S, k=0, To = T. C] il EE 。 

© 若 在 该 温度 达到 内 循环 停止 条 件 , 则 转 步 又 @; 否则 ,从 邻 域 N(z;) 中 随机 选 一 状态 


(6. 22) 
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S35 A- E; —E;,<0, I] S,—Sj 否则 车 exp ( P randomo.1]8f 9 S —S, 重复 步 


T, 
RO. 
O 退 温 Tr —4(TO ,k= 二 =k 十 1; 车 满足 终止 条 件 ,停止 计算 ; 否则 转 步骤 @ 。 
通常 设 Ts 二 100, 步 骤 @ 中 的 退 温 函数 4(。) 可 采用 
T: 


Toc E 
k+l IdT, 


(6. 23) 


其 中 z 为 小 时 间 常 数 。 

SA 算法 的 优点 体现 在 : 

CD 通用 性 强 ,能 够 处 理 任何 系统 和 费用 函数 ,即使 对 复杂 问题 SA 的 编码 也 相对 
容易 。 
(2) 通常 可 保证 找到 问题 的 全 局 最 优 解 。 普 通 的 梯度 下 降 算法 总 是 向 改进 解 的 方向 搜 
索 , 这 种 “贪心 ”算法 往往 导致 只 能 找到 一 个 局 部 最 优 解 ,而 不 是 全 局 最 优 解 。 如 图 6.5 所 
示 ,SA 算法 中 ,在 系统 能 量 减少 这 样 一 个 总 的 趋势 下 ,允许 偶尔 向 能 量 增加 的 方向 搜索 ,以 
避 开 局 部 极 小 ,最 终 能 够 稳定 到 全 局 最 优 状态 。 
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(a) 梯度 下 降 法 (b) SA 算法 
6.5 梯度 下 降 法 与 SA 算法 搜索 空间 的 对 比 


SA 算法 为 寻找 到 最 优 解 ,通常 要 求 较 高 的 初始 温度 、 较 慢 的 降温 速率 、 较 低 的 终止 温 
度 以 及 各 温度 下 足够 多 次 的 抽样 ,因而 SA 算法 往往 优化 过 程 较 长 ,这 是 SA 算法 的 不 足 之 
处 。 因 此 ,在 保证 一 定 优 化 质量 的 前 提 下 提高 算法 的 搜索 效率 ,是 改进 SA 算法 的 主要 

2) 遗传 算法 

遗传 算法 (Genetic Algorithm, GA) H Holland 在 1975 年 提出 的 ,更 早 的 思想 可 以 追溯 
到 20 世纪 60 年 代 。 典 型 的 GA 使 用 独立 于 问题 的 表示 形式 , 即 二 进 制 位 串 ,这 种 编码 既 适 
合 变异 又 适合 交叉 ,并 且 强 调 交 叉 算 子 的 搜索 能 力 。 随 后 ,Holland 将 GA 引入 到 自 适应 系 
统 , 后 来 又 推广 到 其 他 领域 。 

GA 的 进化 对 象 是 由 多 个 个 体 (individual) 组 成 的 群体 (population) 。 在 初始 化 后 ,通过 
基于 适应 度 的 概率 选择 算法 选择 父 代 ,并 通过 交叉 (crossover) 和 变异 (mutation) 维 持 群 体 
的 多 样 性 。 如 此 演化 下 去 ,直到 满足 终止 条 件 。 

基于 对 自然 界 中 生物 遗传 与 进化 机 理 的 模仿 ,针对 不 同 的 问题 ,许多 学 者 设计 了 多 种 不 
同 的 编码 方法 来 表示 问题 的 解 空间 ,设计 了 各 种 遗传 算 子 模仿 不 同 环境 下 的 生物 遗传 特性 。 
这 样 , 不 同 的 编码 方法 和 遗传 算 子 就 构成 了 各 种 遗传 算法 。 但 它们 都 具有 共同 的 特点 , 即 通 
过 模仿 生物 遗传 和 进化 过 程 中 的 选择 .交叉 和 变异 等 ,完成 对 问题 最 优 解 的 自 适应 搜索 过 


程 。 基 于 这 一 共同 特点 ,Goldberg 总 结 出 了 一 种 最 基本 的 遗传 算法 一 一 基本 遗传 算法 
(Simple Genetic Algorithm,SGA) 或 CGA(Canonical GA). SGA 只 使 用 选择 、 交 又 和 变异 
三 种 算 子 ,其 遗传 操作 过 程 简单 容易 理解 ,是 其 他 一 些 遗 传 算法 的 基础 和 雏形 ,不 仅 给 各 种 
改进 的 遗传 算法 提供 了 一 个 基本 框架 ,同时 也 具有 一 定 的 应 用 价值 。 
综 上 所 述 ,遗传 算法 和 其 他 进化 算法 相 比 的 显著 特征 是 使 用 交叉 算 子 产生 下 一 代 个 体 ; 
使 用 繁殖 选择 式 的 选择 算 子 ,根据 适应 度 随机 选取 父 本 ; 一 般 使 用 二 进 制 位 串 式 编码 及 相 
应 的 交叉 算 子 。 
SGA 算法 描述 如 下 : 
随机 化 初始 群体 P(0),t=0 
While( 不 满足 终止 条 件 ) do 
{ 
计算 所 有 个 体 的 适应 度 
计算 每 个 个 体 的 选择 概率 
均匀 随机 选择 ps * N 个 个 体 ,直接 插入 到 下 一 代 群 体 P(t+1) 中 
for(i=0; i<(1 -ps)*N/2; i++) 
{ 
根据 选择 概率 在 P(t) 中 选择 两 个 父 本 
r= random(0, 1) 
If r<pc, 将 两 个 父 本 不 加 改变 地 插入 到 下 一 代 群 体 P(t+1) 中 
Else 
{ 
执行 重组 操作 ,产生 两 个 子 代 
按照 变异 概率 p, 对 两 个 子 代 执 行 变异 操作 
将 其 插入 到 P(t+ 1) 中 
) 


} 


上 述 算法 中 包含 四 个 基本 参数 ,分 别 是 代 间 隔 ps ,交叉 概率 p. ,变异 概率 p. 和 群体 规 
模 N。 

概括 起 来 ,SGA 的 要 素 包 括 : 

(1) 染色 体 编 码 方法 

编码 (coding) 是 将 问题 空间 中 的 点 映射 到 基因 空间 的 过 程 。 基 因 空间 既 可 以 二 进 制 位 
PRR ,也 可 以 是 空间 R" 的 一 个 子 集 。 当 基因 空间 的 编码 方式 为 位 串 时 ,也 称 为 染色 体 
(chromosome) ,其 中 的 每 一 位 称 为 基因 (gene) 。 基 因 的 取 值 范围 称 为 等 位 基因 (allele) 。 

编码 方式 决定 了 基因 型 和 表现 型 之 间 的 转换 方法 , 某 些 特定 的 编码 方法 还 决定 了 遗传 
算 子 的 选择 。 编 码 的 好 坏 在 很 大 程度 上 决定 了 算法 的 优 劣 。 

编码 方案 取决 于 具体 的 问题 ,因此 目前 尚 没有 一 定 的 理论 和 评价 原则 。 作 为 参考 ,De 
Jong 提出 了 两 条 操作 性 比较 强 的 编码 原则 : 一 是 有 意义 积木 块 原则 ,即使 用 能 易于 产生 与 
所 求 问题 相关 的 具有 低 阶 , 短 定 义 长 度 的 编码 方案 ; 二 是 最 小 字符 集 编码 原则 ,即使 用 能 使 
问题 得 到 自然 表示 或 描述 的 具有 最 小 编码 字符 集 的 编码 方案 。 

这 两 条 原则 具有 一 般 的 指导 意义 。 随 着 时 间 的 推移 ,使 用 的 编码 方式 越 来 越 丰富 。 在 
实际 中 ,还 需要 考虑 其 他 的 原则 。 尤 其 是 对 于 约束 优化 问题 ,一 种 方法 是 在 编码 时 避免 不 合 
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法 个 体 的 存在 ,这 样 有 可 能 造成 编码 和 算 子 的 复杂 化 与 不 一 致 性 ; 另 一 种 方法 是 针对 不 合 
法 的 个 体 ,对 其 适应 度 加 以 惩罚 。 常 用 的 编码 方法 如 下 : 

(D 位 串 编 码 。 在 进行 编码 时 ,将 基因 看 做 一 个 有 序 的 位 串 序列 ,而 不 考虑 每 一 位 的 含 
义 。 这 种 编码 类 似 于 生物 染色 体 的 组 成 ,使 交叉 和 变异 等 遗传 操作 很 容易 进行 。 

使 用 位 串 编码 时 ,二 进 制 编码 可 同时 表示 的 模式 数 最 多 ,并 且 实 现 简单 ,对 于 很 多 离散 
优化 问题 (如 背包 问题 等 ) ,基因 型 与 表现 型 的 对 应 关系 非常 明确 ,因此 得 到 广泛 应 用 。 

对 于 连续 优化 问题 ,二 进 制 编码 的 主要 问题 是 : 相 邻 整数 之 间 的 Hamming 距离 可 能 很 
大 , 带 来 很 多 不 必要 的 局 部 极 值 点 ,影响 算法 的 搜索 性 能 。 这 一 问题 也 称 为 Hamming 悬崖 
(Hamming ClifD 。 

克服 这 一 问题 的 一 种 方法 是 使 用 Gray 编码 。Gray 编码 与 二 进 制 编码 的 对 应 关系 
如 下 : 


设 二 进 制 串 (B,B,，,…,B,_1,B,) 对 应 的 Gray 编码 串 为 (yo ,7 Ya Y, DU: 
B. k—l 
7: = | (6.24) 
B OB. 其 他 
同样 地 
n: k=1 
B. = | (6.25) 
nahr, 其 他 


其 中 由 表示 模 2 加 法 , 即 异 或 操作 。 

Gray 编码 的 显著 特点 是 对 于 距离 为 1 的 二 进 制 表 示 ,其 Gray 编码 之 间 的 Hamming HE 
离 为 1。 因 此 可 以 在 一 定 程度 上 克服 上 述 缺 点 。 

@ 实数 编码 。 当 问题 空间 是 实数 连续 空间 时 ,可 以 直接 采用 实数 进行 编码 。 对 于 实数 
编码 ,从 理论 上 讲 , 二 进 制 编码 的 各 种 遗传 操作 都 可 以 使 用 ,但 实际 应 用 时 通常 都 使 用 专门 
针对 实数 编码 设计 的 算 子 。 从 进化 计算 的 历史 来 看 ,进化 策略 和 遗传 规划 都 采用 实数 编码 。 
近年 来 ,遗传 算法 在 求解 复杂 连续 优化 问题 时 也 经 常 使 用 实数 编码 。 实 际 上 ,使 用 实数 编码 
的 遗传 算法 和 进化 策略 的 区 别 已 经 越 来 越 小 。 

© 结构 化 编码 。 对 于 很 多 具有 明确 数据 结构 的 问题 ,更 加 自然 地 表示 是 直接 对 这 种 数 
据 结构 进行 操作 , 称 之 为 结构 化 编码 。 常 见 的 编码 方式 是 树 和 图 。 这 种 编码 方式 一 般 是 针 
对 具体 问题 设计 具体 的 编码 和 遗传 算 子 ,很 难 具 有 通用 性 。 对 于 由 Koza 提出 的 遗传 规划 
(genetic programming) ,可 以 看 做 是 使 用 逆 波 兰 表 达 式 的 二 叉 树 作为 结构 化 编码 的 进化 算 
法 的 例子 。 

对 于 SGA 最 常用 的 是 位 串 编 码 , 即 使 用 固定 长 度 的 二 进 制 符号 串 表示 群体 中 的 个 体 ， 
其 等 位 基因 是 由 二 进 制 符号 集 {0,1} 组 成 的 。 随 机 产生 N 个 初始 字符 串 ,每 个 字符 串 称 为 
一 个 个 体 ,N 个 个 体 构成 一 个 初始 群体 。SGA 以 N 个 个 体 为 起 点 开始 迭代 。 

(2) 适应 度 函 数 

对 于 二 进 制 位 串 空间 Q — [0.11.2 称 为 染色 体 长 度 。 称 问题 空间 中 的 点 为 表现 型 
(phenotype) ,基因 空间 中 的 点 为 基因 型 (genetype)。 对 于 一 个 特定 的 基因 型 ,其 对 应 的 表 
现 型 的 优化 函数 值 称 为 适应 度 (fitness) 。 

适应 度 函数 表明 个 体 对 环境 适应 能 力 的 强 弱 , 是 自然 选择 的 唯一 参考 因素 。 


当 欲 求解 的 原始 问题 是 数值 优化 问题 时 ,可 以 直接 将 求解 函数 作为 适应 度 。 个 体 的 适 
应 度 取 值 通常 为 正 的 实数 值 。 一 般 情 况 下 , 当 个 体 的 性 能 越 好 时 ,其 适应 度 值 越 大 :而且 要 
求 非 负 (如 GA 中 的 比例 选择 策略 ) 。 因 此 ,有 时 需要 对 原始 的 适应 度 函 数 进行 变换 。 

当 原 始 问题 是 非 数值 优化 问题 时 ,一 种 方案 是 选择 恰当 的 度量 函数 充当 适应 度 函 数 ,将 
某 个 可 行 解 的 适应 度 变 换 到 正 实数 空间 ; 另外 一 种 方案 是 使 用 不 基于 适应 度 函 数 具体 数值 
的 选择 策略 ,如 排名 选择 和 锦标 赛 选择 。 

很 多 情况 下 ,原始 的 适应 度 函 数 ( 及 其 简单 变换 ) 存 在 一 些 不 适合 选择 使 用 的 特点 。 有 
时 适应 度 值 之 间 的 差别 较 小 ,导致 选择 效果 不 明显 ; 有 时 优势 个 体 的 适应 度 值 过 大 ,可 能 产 
生 早熟 收 伍 。 在 这 些 情况 下 ,需要 对 原始 的 适应 度 函 数 进行 某 种 变换 ,以 获得 更 好 的 性 能 。 
这 种 变换 的 具体 形式 通常 是 通过 经 验 和 试验 获得 的 。 

SGA 算法 按 与 个 体 适应 度 成 正比 的 概率 确定 当前 群体 中 每 个 个 体 遗 传 到 下 一 代 群 体 
的 机 会 。 

(3) 遗传 算 子 

一 般 而 言 , 各 种 进化 算法 的 不 同 点 在 于 产生 新 个 体 与 选择 的 方式 不 同 。 这 种 方式 也 称 
为 算 子 (operator)。 进 化 算 子 可 以 分 为 两 类 : 选择 算 子 和 演化 算 子 。 在 有 些 算法 的 具体 实 
现 中 ,这 两 种 算 子 往往 混合 在 一 起 。 

选择 算 子 充 当 自 然 进化 中 自然 选择 的 角色 ,起 到 指引 搜索 方向 的 作用 。 其 目的 是 提高 
具有 较 高 适应 度 的 个 体 或 其 后 代 存 活 的 概率 。 通 过 选择 算 子 , 可 以 使 群体 向 更 高 适应 度 的 
方向 前 进 。 不 同 的 选择 算 子 导致 不 同 的 选择 压力 (selection intensity)。 选 择 压 力 较 大 , 算 
法 的 收敛 速度 较 快 ,但 也 容易 导致 早熟 收敛 。 

选择 算 子 按照 选择 阶段 可 分 为 繁殖 选择 和 生存 选择 ; 按照 比较 范围 可 分 为 种 群 选择 和 
生境 选择 ; 按照 计算 方式 可 分 为 确定 性 选择 和 概率 性 选择 。 繁 殖 选择 指 通过 选择 确定 哪些 
个 体 可 以 用 来 产生 下 一 代 ; 生存 选择 指 通过 选择 确定 哪些 个 体 可 以 存活 。 种 群 选择 指 选择 
是 在 整个 种 群 的 范围 内 进行 的 ,个 体 的 适应 度 要 和 整个 种 群 的 适应 度 分 布 进行 比较 。 生 境 
选择 指 选择 是 在 两 个 或 几 个 个 体 ( 通 常 具有 血缘 关系 ) 之 间 进 行 的 。 确 定性 选择 算 子 使 用 确 
定性 的 算法 进行 选择 ;而 概率 性 选择 算 子 在 选择 过 程 中 引入 随机 性 的 因素 。 

演化 算 子 充当 自然 进化 繁殖 过 程 中 遗传 和 变异 的 角色 ,起 到 维护 种 群 个 体 构 成 多 样 性 
(diversity) 的 作用 。 它 包括 交叉 (crossover) 和 变异 (mutation) 两 种。 交叉 算 子 又 称 重 组 
(recombination) 算 子 , 用 于 从 两 个 父 本 产生 一 个 新 的 个 体 。 演 化 算 子 在 进化 算法 中 起 到 构 
造 的 作用 ,可 以 从 一 个 、 两 个 或 多 个 个 体 出 发 ,构造 出 新 个 体 。 其 目的 是 产生 和 维护 群体 的 
多 样 性 ,同时 起 到 局 部 搜索 的 作用 。 

通常 SGA 使 用 以 下 三 种 遗传 算 子 : 

(D 选择 算 子 (selection operator) 。 一 个 群体 中 同时 有 N 个 个 体 存在 ,这 些 个 体 哪个 保 
留用 于 繁殖 后 代 ,哪个 被 淘汰 ,是 通过 选择 过 程 实现 的 。 选 择 的 原则 是 适应 度 大 的 个 体 为 下 
一 代 贡 献 一 个 或 多 个 后 代 的 概率 较 大 。 选 择 体现 了 “优胜 劣 汰 ”的 原则 。 

常用 的 选择 策略 包括 : 

。 基于 适应 度 比 例 的 选择 。 

* 基于 排名 的 选择 (ranking selection) 。 

在 使 用 基于 适应 度 比例 的 选择 策略 时 ,会 出 现 由 于 某 些 个 体 的 适应 度 过 大 而 导致 的 早 
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熟 收 敛 。 同 时 这 种 方式 依赖 于 适应 度 函 数 的 具体 形式 ,对 于 某 些 应 用 而 言 ,影响 计算 的 收敛 
性 和 收敛 速度 。 

基于 排名 的 选择 策略 根据 个 体 在 整个 群体 中 的 适应 度 的 好 坏 排名 分 配 选 择 概率 ,可 以 
避免 上 述 问题 。 其 基本 形式 是 先 根据 所 有 个 体 的 适应 度 进行 排序 , 设 排序 后 的 次 序 为 1， 
2,…,N。 然 后 对 于 每 一 个 体 指定 一 个 选择 概率 函数 户 。 户 只 与 ; 有 关 , 与 fi 无关; 且 满足 


之 /名 一 1, 单调 递减 。 
常见 的 选择 概率 函数 的 形式 包括 线性 排名 和 指数 排名 两 种 。 


对 于 线性 排名 ,有 
— 1f, 24 一 1); 
bi 一 Hle NF1 ) (6. 26) 
通常 a=1.1。 
对 于 指数 排名 ,有 


l-g), i«N 
| (6. 27) 


(=D™, i=N 

基于 排名 的 选择 策略 可 以 看 作 是 对 适应 度 函 数 的 一 种 自 适应 变换 ,只 不 过 这 种 变换 是 
动态 的 , 随 着 群体 进化 而 变化 ,同时 只 和 适应 度 的 相对 值 有 关 ,与 绝对 值 无 关 。 

。 基于 局 部 竞争 的 选择 。 

以 上 两 种 方案 都 是 根据 个 体 在 整个 群体 中 的 相对 地 位 决定 其 选择 概率 ,因此 需要 整个 
群体 的 信息 。 当 群体 规模 很 大 时 ,需要 一 定 的 额外 计算 量 ,同时 也 不 利于 并 行 计算 。 基 于 局 
部 竞争 的 选择 策略 可 以 在 一 定 程度 上 解决 这 一 问题 。 

锦标 赛 选择 (tournament selection) 通 过 随机 选 出 的 若干 个 个 体 之 间 进 行 竞争 ,适应 度 
最 大 的 个 体 获得 优胜 ,并 被 选 出 产生 其 后 代 。 

@ 交叉 算 子 (crossover operator) 。 对 于 选中 用 于 繁殖 的 个 体 ,随机 选择 位 置 , 交 换 字 
符 串 左边 部 分 ,产生 新 个 体 ,新 个 体 继承 了 其 父 代 的 特性 。 交 叉 体 现 了 信息 交换 的 思想 , 它 
是 算法 的 核心 。 

交叉 算 子 的 具体 形式 和 基因 的 编码 方式 密切 相关 。 对 于 位 串 编码 ,最 简单 的 交叉 算 子 
是 单 点 交叉 ,也 有 复杂 一 些 的 多 点 交叉 和 均匀 交叉 算 子 。 

单 点 交叉 的 实现 如 下 : 随机 地 在 两 个 父 本 上 选择 一 个 交叉 点 ,然后 交换 这 两 个 串 对 应 
的 子 串 ,得 到 的 子 代 分 别 由 父 本 连续 的 一 部 分 构成 。 多 点 交叉 则 是 随机 生成 多 个 交叉 点 , 然 
后 间断 交换 父 本 中 对 应 的 子 串 ; 均匀 交叉 则 是 依 概 率 交 换 父 串 中 的 每 一 位 。 

对 于 这 三 种 交叉 算 子 ,可 以 使 用 统一 的 形式 化 描述 : 

设 两 个 父 本 为 站 和 jj; ,存在 一 个 交叉 模板 m, 交 叉 后 的 子 代 分 别 为 : 

5—Ggi nm Q GG 50. s= Gm) O m) (6.28) 

式 (6. 28) 中 ,加 、 四 和 元 分 别 表示 二 进 制 的 与 、 异 或 和 非 运算 。 

如 果 mm 的 结构 是 在 某 位 之 前 都 为 1, 其 后 都 为 0( 或 相反 ), 则 式 (6. 28) 表 示 单 点 交 
X; 若 交 由 连续 的 0 串 和 1 串 混 合 而 成 , 则 表示 多 点 交叉 ; 而 m 的 一 般 形式 代表 均匀 
SEX, 

从 模式 的 角度 来 看 ,多 点 交叉 和 均匀 交叉 能 够 搜索 到 的 模式 更 多 ,具有 更 强大 的 搜索 能 


力 。 但 实践 证 明 , 多 点 交叉 和 均匀 交叉 的 作用 并 不 显著 。 

对 于 其 他 类 型 的 编码 方式 ,可 以 设计 出 不 同 的 交叉 算 子 。 在 实际 使 用 时 ,为 避免 致死 基 
因 (lethal gene) ,也 需要 对 交叉 算 子 进行 改进 。 实 际 上 ,很 多 特定 领域 中 使 用 的 GA 都 要 为 
之 设计 包含 领域 知识 的 交叉 算 子 。 

© 变异 算 子 (mutation operator) 。 变 异 操作 是 把 某 一 个 体 的 每 一 位 按照 概率 取 反 。 同 
生物 界 一 样 ,GA 中 发 生变 异 的 概率 很 低 ,通常 取 值 在 0. 001 ~ 0. 01 之 间 。 在 二 进 制 编码 
中 ,基本 的 变异 方式 就 是 将 某 一 位 或 某 几 位 进行 反 转 。 其 形式 化 的 描述 如 下 : 

设 父 代 的 二 进 制 编码 为 ,存在 一 个 变异 模板 mm, 变异 后 的 结果 为 : 

U(D —jOQm (6. 29) 
具体 地 ,存在 两 种 典型 的 变异 方式 , 即 1 比特 变异 和 c/ 变异 。 

1 比特 变异 指 按照 变异 概率 确定 待 变异 的 个 体 后 ,均匀 地 从 中 选取 一 位 进行 反 转 , 即 模 
板 中 只 有 一 位 是 1; c/ 变异 指 对 于 某 一 个 体 ,每 一 位 都 按照 概率 p, /1 确定 是 否 反 转 。 一 次 

虽然 这 两 种 方式 实现 细节 不 同 ,但 都 具有 遍历 性 , 即 从 某 个 特定 的 基因 型 出 发 ,经 过 有 
限 次 迭代 可 以 达到 任意 的 另 一 个 基因 型 。 

(4) 运行 参数 

SGA 算法 有 四 个 运行 参数 需要 预先 设 定 , 即 : 

CD 种 群 数目 N: 种 群 数目 影响 GA 的 有 效 性 。N 太 小 ,GA 会 很 差 或 根本 找 不 到 解 , 因 
为 太 小 的 种 群 数目 不 能 提供 足够 的 采样 点 ; N 太 大 ,会 增加 运算 量 , 使 收敛 时 间 过 长 。 一 般 
种 群 数目 在 50 一 200 之 间 较 为 合适 。 

@ 终止 条 件 : 一 般 选择 一 定 的 进化 代数 或 适应 度 函 数值 达到 一 定 的 国 值 作为 终止 
条 件 。 

C) 交叉 概率 po: 它 控制 着 交叉 操作 的 频率 ,决定 了 个 体 的 更 新 能 力 和 算法 在 解 空间 的 
搜索 能 力 。p. 太 大 ,会 使 优良 个 体 的 破坏 速度 过 大 ,造成 算法 性 能 不 稳定 ; pe 太 小 ,群体 在 
进化 过 程 中 产生 具有 信息 的 新 个 体 速 度 减 慢 ,搜索 会 由 于 太 小 的 探查 率 而 可 能 停滞 不 前 。 
一 般 p. 取 值 范围 为 0.25 一 0.75。 

@ 变异 概率 pn: 它 是 增加 群体 多 样 性 的 算 子 。p。 太 小 ,不 会 产生 新 的 基因 ; pn KK, 
会 使 GA 退化 成 随机 搜索 。 一 般 pn 取 值 范围 为 0.001 一 0. 01。 

将 GA 应 用 于 聚 类 有 可 能 会 带 来 一 些 问 题 , 如 编码 元 余 、 对 具体 问题 不 敏感 以 及 随机 
搜索 最 优 解 等 。 为 了 克服 这 些 问 题 ,可 从 编码 方案 、 适 应 度 函 数 、 遗 传 算 子 和 运行 参数 等 
几 个 方面 对 SGA 算法 加 以 改进 。 作 为 进化 算法 中 最 具有 代表 性 的 算法 ,遗传 算法 以 其 简 
单 通用 的 编码 和 有 效 的 进化 操作 得 到 了 广泛 的 应 用 。 目 前 遗传 算法 已 经 不 再 局 限于 二 
进 制 编码 。 最 近 很 多 的 应 用 尝试 使 用 其 他 的 形式 ,如 图 、Lisp 表达 式 、 有 序列 表 和 实数 向 
量 等 。 

3) 蚁 群 算法 

群体 智能 (Swarm Intelligence. SD 是 一 种 人 工 智 能 技术 ,主要 探讨 由 多 个 简单 个 体 构 
成 的 群体 的 集体 行为 ,这 些 个 体 之 间 相 互 作 用 ,个 体 与 环境 之 间 也 互 为 影响 。 尽 管 没 有 集中 
控制 机 制 指导 个 体 的 行为 ,个 体 之 间 的 局 部 交互 也 能 够 导致 某 一 社会 模式 的 出 现 。 自 然 界 
中 此 类 现象 很 多 ,如 蚁 群 、 鸟 群 . 曾 群 和 蜂 群 等 ,由 这 种 自然 现象 引发 的 “ 群 类 算法 ”, 如 蚁 群 
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算法 .粒子 群 算法 能 够 成 功 地 解决 现实 中 的 优化 问题 。SI 与 遗传 算法 具有 共同 之 处 ,都 
是 基于 种 群 的 ,系统 从 一 个 由 多 个 个 体 ( 潜 在 解 ) 组 成 的 种 群 开始 ,这 些 个 体 模仿 昆虫 或 
动物 的 社会 行为 代 代 繁殖 ,以 寻求 最 优 。 不 同 于 遗传 算法 的 是 ,群体 智能 不 使 用 交叉 和 
变异 这 些 进化 算 子 ,个 体 只 是 根据 自身 与 群体 中 其 他 个 体 、 与 周围 环境 的 关系 不 断 地 更 
新 ,以 求 得 最 优 。 

蚁 群 算法 是 模拟 自然 界 蚂蚁 殉 食 过 程 的 一 种 分 布 式 、 启 发 式 群 体 智能 算法 ,最 早 是 
1991 年 由 Colorni、Dorigo 和 Maniezzo 提出 ,用 于 求解 复杂 的 组 合 优化 问题 ,如 旅行 商 问 题 
(TSP) .加工 调度 问题 (JSSP) 和 图 着 色 问 题 (CGCP) 等 。 

像 蚂 蚁 这 类 群居 昆虫 ,虽然 单个 个 体 的 行为 极为 简单 ,但 由 这 样 的 个 体 组 成 的 蚊 群 却 
表现 出 极其 复杂 的 行为 ,能 够 完成 复杂 的 任务 ,不 仅 如 此 蚁 群 还 能 适应 环境 的 变化 ,如 在 
运动 路 线 上 遇 到 障碍 物 时 , 蚁 群 能 够 很 快 重新 找到 最 优 路 径 。 那 么 蚁 群 是 如 何 寻找 最 优 
路 径 的 呢 ? 

人 们 通过 大 量 的 研究 发 现 ,自然 界 中 蚂蚁 在 更 食 过 程 中 沿途 散播 一 种 化 学 物质 , 称 为 信 
息 素 或 外 激素 (pheromone) ,信息 素 中 记录 了 食物 源 的 远近 与 食物 量 的 多 少 ,而 其 他 蚂蚁 通 
过 和 触角 能 够 检测 识别 到 这 种 信息 素 并 跟踪 ,从 而 最 终 找 到 食物 源 。 当 大 量 蚂蚁 不 断 地 从 蚁 
穴 通 往 食物 源 ,沿途 不 断 地 识别 原 有 信息 素 , 并 同时 散播 新 的 信息 素 , 使 得 越 短 的 路 线 上 的 
信息 素 浓 度 越 高 ,最终 找 到 一 条 最 短 的 路 线 , 此 后 所 有 的 蚂蚁 都 将 通过 这 条 最 短路 径 到 达 食 
物 源 。 

如 图 6.6(a) 所 示 , 假 设 从 蚁 穴 到 食物 源 有 两 条 等 长 路 线 NAF 和 NBF(NAF= NBF)。 
初始 时 ,两 条 路 线 上 都 没有 信息 素 , 各 个 蚂蚁 随机 选择 其 中 一 条 路 线 , 并 沿途 散播 信息 素 。 
随 着 时 间 的 推移 ,各 路 线 会 挥发 掉 部 分 信息 素 ,也 不 断 地 增加 新 的 蚂蚁 带 来 的 信息 素 , 这 是 
一 个 正 反 馈 过 程 。 后 来 的 蚂蚁 再 选择 路 线 时 ,浓度 较 高 的 路 线 被 选择 的 概率 较 大 。 一 段 时 
间 后 , 越 来 越 多 的 蚂蚁 会 选择 同一 条 路 线 ,而 另 一 条 路 线 上 的 蚂蚁 数量 越 来 越 少 , 且 其 上 的 
信息 素 逐 渐 挥发 列 尽 。 


A Cp 
`A 
蚁 穴 食物 源 蚁 穴 食物 源 
N F N OF 
B B 
(a) 在 两 条 相等 路 线 中 选择 (b) 在 两 条 不 相等 路 线 中 选择 


6.6 蚂蚁 砚 食 时 最 短路 径 选择 


如 图 6. 6(b) 所 示 ,对 于 两 条 不 等 长 的 路 线 NAF 和 NBF(CNAF 二 NBF) 而 言 ,初始 时 两 
条 路 线 上 都 没有 信息 素 , 各 个 蚂蚁 随机 选择 其 中 一 条 路 线 , 即 有 些 选 择 路 线 NAF, 另 一 些 选 
择 路 线 NBF ,并 沿途 散播 信息 素 , 两 条 路 线 上 的 蚂蚁 数 大 致 相等 。 假 设 蚂蚁 的 行走 速度 相 
同 , 则 选择 走路 线 NBF( 较 短路 线 ) 的 蚂蚁 比 选择 走路 线 NAF( 较 长 路 线 ) 的 蚂蚁 先 到 达 食物 源 
F; 当 走路 线 NBF 的 蚂蚁 返回 蚁 穴 时 ,走路 线 NAF 的 蚂蚁 仍 在 途中 C 点 处 , 即 2NBE— 
NAF 十 FAC。 可 以 看 出 ,线段 NC 上 的 信息 素 要 少 于 别处 ; 下 次 蚂蚁 再 选择 路 线 时 ,会 以 较 


高 概率 选择 较 短 路 径 , 这 使 得 较 长 路 线 上 的 信息 素 浓度 越 来 越 低 , 较 短路 线 上 的 信息 素 浓度 
越 来 越 高 。 一 段 时 间 后 ,所 有 的 蚂蚁 都 将 选择 较 短 的 路 线 。 

有 蚁 群 算法 就 是 从 蚂蚁 更 食 时 寻找 最 短路 径 的 现象 中 获得 启示 而 设计 的 ,由 计算 机 编程 
实现 的 分 布 式 并 行 搜索 策略 。 蚂 蚁 通过 别 的 蚂 蚊 留 下 来 的 信息 素 的 强 弱 作为 自己 选择 路 径 
的 参数 ,信息 素 越 强 的 路 径 被 选择 的 可 能 性 越 大 。 信 息 素 的 更 新 策略 是 越 好 的 路 径 上 获得 
的 信息 素 越 多 ,通过 这 个 正 反 馈 寻 找 更 好 的 路 径 , 这 是 蚁 群 算法 的 基本 原理 。 单 个 蚂蚁 的 规 
则 相当 简单 ,但 是 通过 蚁 群 的 协同 工作 ,产生 对 复杂 环境 的 认 知 ,实现 对 解 空 间 的 有 效 搜索 。 

蚂蚁 更 食 的 过 程 与 旅行 商 问 题 非常 相似 ,下 面 以 求解 n 个 城市 的 TSP 问题 为 例 说 明基 
本 的 蚁 群 算法 。 

首先 设 TSP 中 城市 i 与 城市 j 之 间 的 距离 为 dj «m 为 蚊 群 中 蚂蚁 的 数量 ,bi CO Em t 


时 刻 位 于 城市 i 的 蚂蚁 数量 , 则 有 m = -X b, CO . c ORR 1 时刻 弧 (i,j) 上 的 信息 素 量 。 


初始 时 刻 各 弧 上 的 信息 素 量 相等 ,zt; ()-C, C 为 常数 。 蚂 蚁 在 运动 过 程 中 ,根据 各 弧 上 
的 信息 素 量 决定 移动 的 方向 ,p$ (4) 表 示 在 1 时 刻 蚂蚁 & 由 点 i 向 j 移动 的 概率 。 
zo (t) . edo 
MO = 2) AORO (6. 30) 


s€J,C) 
0. 其 他 
其 中 大 (表示 城市 ;上 的 蚂蚁 & 下 一 步 允 许 选择 的 城市 集合 。a 和 8B 分 别 表示 蚂蚁 在 
移动 过 程 中 所 积累 的 信息 素 5 (4) 及 启发 式 因 子 方 (DO 在 蚂蚁 择 路 时 的 重要 程度 。 广 表示 由 
城市 i 到 城市 7 的 期 望 值 ,可 模拟 某 种 启发 式 算法 具体 确定 。 另 外 , 蚁 群 算法 还 具有 记忆 功 
能 ,用 tabws(k 三 1,2,…,m) 记 录 蚂 蚁 当前 所 走 过 的 城市 ,集合 tabu, 随 进化 过 程 进行 动态 
调整 。 随 着 时 间 的 推移 ,以 前 留 下 的 信息 素 逐 渐 挥发 ,用 参数 1 一 o 表示 信息 素 挥 发 程度 ,经 
过 /个 时 刻 ,蚂蚁 完 成 一 次 循环 ,各 弧 上 的 信息 素 量 的 调整 如 下 所 示 ， 
tyt D = pe ti (t) + Aty (6.31) 
Ac; = > Art (6. 32) 


Ac m Ik 只 蚂蚁 在 本 次 循环 中 留 在 弧 (i,j) 上 的 信息 素 量 ,Ar; 表示 本 次 循环 中 红 (i,j) 
上 的 信息 素 的 总 增 量 。 


Q, 第 上 只 蚂蚁 在 本 次 循环 中 经 过 弧 (i, 让 
Ad, = Ls (6.33) 


0. 其 他 

其 中 ,Q 是 常数 ,Le 表示 第 & 只 蚂蚁 在 本 次 循环 中 所 走路 径 的 总 长 度 。 

在 此 模型 中 ,参数 QLC a Bo 通常 由 实验 确定 其 最 佳 值 。 

基本 蚁 群 算法 求解 TSP 问题 的 主要 步骤 如 下 : 

(D ERKA nc 二 0; 各 c; MI Ac; EI Es 将 mm 个 蚂蚁 置 于 个 顶点 上 。 

@ 将 各 蚂蚁 的 初始 出 发 点 置 于 当前 解 路 线 集中 ; 对 每 个 蚂蚁 (k= 二 1,2,…,m) 按 
式 (6. 30) 的 概率 成 移 至 下 一 顶点 j; 将 项 点 j 置 于 当前 解 路 线 集中 。 

© 计算 各 蚂蚁 的 目标 函数 值 Z:; 记录 当前 最 佳 解 。 

@ 按 更 新 方程 式 (6. 31) 和 式 (6. 32) 修 改 轨迹 强度 。 


原理 及 应 用 


© 对 各 弧 (i,7), 置 Ar —0,nc—nc 1l, 
© 若 xc 去 预定 迭代 次 数 且 无 退化 行为 ( 即 找到 的 都 是 相同 解 ) , 则 转 至 步骤 @ 。 
算法 的 时 间 复 杂 度 为 O(zc * m * n’), SE TSP 问题 而 言 ,经 验 结果 是 , 当 m 约 等 于 n 时 
效果 最 佳 ,此 时 的 时 间 复 杂 度 为 O(nc * D. 
蚊 群 算法 的 优点 体现 在 : 
* 较 强 的 鲁 棒 性 : 对 基本 蚁 群 算法 稍 加 修改 , 便 可 以 应 用 于 其 他 问题 。 
。 分 布 式 计算 : 蚁 群 算法 是 一 种 基于 种 群 的 进化 策略 ,具有 并 行 性 ,易于 并 行 实现 。 
。 易于 与 其 他 方法 结合 : 蚁 群 算法 很 容易 与 多 种 启发 式 算法 结合 ,以 改善 算法 性 能 。 
人 研究 证 明 蚁 群 算法 具有 很 强 的 发 现 较 好 解 的 能 力 , 这 是 因为 该 算法 不 仅 利用 了 正 反 馈 
原理 ,在 一 定 程度 上 可 以 加 快 进化 过 程 ,而 且 是 一 种 并 行 算法 ,不 同 个 体 之 间 不 断 进行 信息 
的 交流 和 传递 ,相互 协作 ,有 利于 发 现 较 好 解 。 
蚁 群 算法 也 存在 一 些 缺 陷 , 例 如 : 
。 搜索 时 间 较 长 : 与 其 他 算法 相 比 ,一 般 需 要 较 长 的 搜索 时 间 , 其 算法 的 复杂 度 体现 
在 这 一 点 。 
。 易 出 现 停滞 现象 : 当 搜索 到 一 定 程度 ,所 有 个 体 所 发 现 的 解 完 全 一 致 ,不 能 对 解 空 
间 进 一 步 搜索 ,不 利于 发 现 更 好 的 解 。 
目前 , 蚁 群 算法 是 继 遗 传 算法 .模拟 退火 .禁忌 搜索 、 神 经 网 络 等 热门 算法 之 后 ,新 加 入 
智能 启发 式 算法 这 一 行列 的 ,在 短 短 的 几 年 内 受到 越 来 越 多 的 关注 ,作为 通用 的 随机 优化 方 
法 ,通过 其 内 在 的 搜索 机 制 ,在 一 系列 困难 的 组 合 优化 问题 求解 中 取得 了 成 效 。 
4) 粒子 群 优 化 算法 
粒子 群 优化 算法 (Patical Swarm Optimization, PSO) 最 初 由 Kennedy 和 Eberhart 于 
1995 年 提出 ,是 一 种 基于 和 迭代 的 优化 方法 , 因 其 概念 简单 实现 容易 迅速 引起 重视 。 目 前 已 
被 应 用 于 多 目标 优化 、 模 式 识别 ,信号 处 理 和 决策 支持 等 领域 。 
PSO 最 早 源 于 对 鸟 群 更 食 行为 的 研究 ,与 蚁 群 算法 同属 于 群体 智能 算法 ,是 从 个 体 
的 社会 行为 中 得 到 启发 ,是 对 简单 社会 系统 的 模拟 。PSO 算法 中 ,粒子 群 在 一 个 HESS 
间 中 搜索 ,其 中 每 一 个 粒子 所 处 的 位 置 都 表示 问题 的 一 个 解 。 粒 子 通过 不 断 调 整 其 位 置 
X 搜索 新 的 解 。 每 个 粒子 都 能 记 住 自己 搜索 到 的 最 好 解 , 记 作 Pa, 以 及 整个 粒子 群 经 历 
过 的 最 好 位 置 , 即 目前 搜索 到 的 最 优 解 , 记 作 Ps。 每 个 粒子 都 具有 一 个 速度 , 记 做 V, 由 
式 (6. 34) 计 算 : 
Vi — w * Va + * randO * (Pa — Xa) +m * randO * (Paa — Xa) (6.34) 
其 中 Vs 表示 第 i 个 粒子 第 d 维 上 的 速度 ,o 为 惯性 权重 ,六 和 六 为 调节 Pa 和 Ps 相对 重要 
性 的 参数 ,rand() 为 随机 数 生成 函数 。 这 样 ,可 以 计算 出 粒子 移动 的 下 一 位 置 是 : 
X= Xa Va (6.35) 
从 式 (6.34) 和 式 (6. 35) 可 以 看 出 ,粒子 的 移动 方向 由 三 部 分 决定 ,自己 原 有 的 速度 Va 
与 自己 最 佳 经 历 的 距离 (Pw 一 Xa) 和 与 群体 最 佳 经 历 的 距离 (Pss 一 Xa) ,并 分 别 由 权重 系数 
wm Im 决定 其 相对 重要 性 。 
标准 PSO 算法 的 描述 如 下 : 
CD 初始 化 粒子 群 , 即 随机 设 定 各 粒子 的 初始 位 置 X 和 初始 速度 V。 


D 计算 每 个 粒子 的 适应 度 值 。 

O 对 每 个 粒子 ,将 其 适应 度 值 和 它 经 历 过 的 最 好 位 置 Pa 的 适应 度 值 进行 比较 ,如 果 更 
好 ,更 新 Pao 

CD 对 每 个 粒子 ,将 其 适应 度 值 和 群体 所 经 历 的 最 好 位 置 Ps 的 适应 度 值 进行 比较 ,如 果 
更 好 ,更 新 Pao 

© 根据 式 (6. 34) 和 式 (6. 35) 调 整 粒 子 的 速度 和 位 置 。 

© 如 果 达 到 结束 条 件 ( 足 够 好 的 位 置 或 最 大 迭代 次 数 ), 则 结束 ; 否则 转 至 步骤 @。 

PSO 是 一 种 进化 计算 方法 ,具有 以 下 进化 计算 的 典型 特征 , 即 : 

。 具有 一 个 初始 化 过 程 ,在 这 一 过 程 中 ,群体 中 的 个 体 被 赋值 为 一 些 随机 产生 的 初 

始 解 。 

。 通过 产生 更 好 的 新 一 代 群 体 搜索 解 空间 。 

。 新 一 代 群 体 产 生 在 前 一 代 的 基础 之 上 。 

目前 ,PSO 算法 在 很 多 连续 优化 问题 中 获得 较 成 功 的 应 用 ,但 是 在 离散 域 上 的 研究 和 
应 用 还 很 少 。 


6.2 模糊 聚 类 


6.2.1 概述 


通常 地 , 硬 肾 类 是 指 将 包含 个 对 象 的 集合 划分 为 & 个 互 斥 的 类 , 聚 类 结果 可 表示 为 一 
个 nxXk WIERE US (ua) EIR i RFX Rk W us =1; 否则 wu 二 0。 为 保证 各 类 是 分 离 的 
且 非 空 ,wu 必须 满足 下 列 条 件 : 


K 
Mus md, = ln 
k=1 


Du >0, k—qeeK (6. 36) 
i=l 


其 中 ,xsE(0,1) i=1,2,.…,n; k=1,2,,K. 

实际 上 , 互 斥 的 聚 类 在 实际 中 并 不 适合 ,因此 提出 了 模糊 聚 类 , 它 与 硬 聚 类 的 本 质 区 别 
在 于 : 

ua € [0,1] ¿= 12,° 一 1 2 下 (6.37) 

模糊 聚 类 (Fuzzy Clustering Analysis,FCA) 是 指 一 个 对 象 以 不 同 程度 属于 多 个 类 ,各 
类 之 间 的 界限 是 不 确定 的 。 其 本 质 是 不 仅 要 考虑 对 象 是 否 属于 该 类 ,而 且 要 考虑 属于 该 
类 的 程度 如 何 。 模 糊 聚 类 完全 不 同 于 所 谓 的 硬 聚 类 , 即 类 别 之 间 的 界限 是 明确 而 严 
格 的 。 

1966 年 ,Bellman、Kalaba 和 Zadeh 首先 提出 以 模糊 集 为 基础 实现 聚 类 。 其 后 , Wee, 
Flake, Turner 及 Gitman 和 Levine 等 人 进行 了 一 些 尝试 性 探索 ,系统 地 阐述 模糊 聚 类 算法 
的 是 著名 学 者 Ruspini。20 世纪 70 年 代 到 80 年 代 ,. 人 们 对 模糊 矩阵 及 其 传递 闭 包 等 问题 
进行 了 大 量 研究 。 到 90 年 代 , 尽 管 仍 有 人 从 事 这 一 方面 的 研究 ,但 由 于 这 类 方法 不 适用 于 
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大 型 数据 集 , 所 以 日 渐 冷 落 。 后 来 人 们 试图 用 图 论 的 方法 研究 模糊 聚 类 ,1993 年 Zhenggu 
Wu 和 Leathy 提出 最 优 图 论 的 聚 类 方法 。 在 将 硬 聚 类 推广 到 模糊 聚 类 方面 也 进行 了 大 量 
工作 ,如 将 k 最 近邻 推广 到 模糊 聚 类 ; 1986 年 Bezdek 等 人 将 模糊 c 均值 应 用 到 k 最 近邻 ， 
提出 了 一 种 模糊 k 最 近邻 法 。 此 外 还 提出 了 其 他 一 些 模糊 聚 类 方法 ,如 1987 年 Bezdek 和 
Harri 利用 数据 集 的 凸 分 解 进行 模糊 聚 类 。 

由 于 种 种 原因 ,上 述 方法 的 应 用 并 不 广泛 。 实 际 中 ,受到 普遍 关注 的 是 基于 目标 函数 的 
模糊 聚 类 如 模糊 c 均值 等 。 

基于 目标 函数 的 模糊 聚 类 算法 首先 是 由 Ruspini 提出 的 ,随后 其 一 般 化 方法 一 一 模糊 c 
均值 及 其 收敛 性 被 提出 并 加 以 证 明 。 从 此 ,基于 目标 函数 的 模糊 聚 类 方法 得 以 迅速 发 展 , 目 
前 已 形成 了 庞大 的 体系 。 它 是 近年 来 发 展 很 快 的 一 种 聚 类 方法 。 其 目的 是 使 用 模糊 系统 解 
决 客观 世界 中 存在 的 界限 不 分 明 的 聚 类 问题 ,对 样本 进行 合理 的 模糊 划分 ,从 而 达到 判别 、 
分 析 与 预测 的 目的 。 

模糊 聚 类 的 研究 工作 大 致 可 分 为 两 类 , 即 : 

CD 通过 模糊 方法 得 到 模糊 结果 ,每 个 模式 以 不 同 的 隶属 度 从 属于 若干 个 类 。 以 
Bezdek 提出 的 模糊 k 均值 为 代表 ,该 算法 收敛 于 部 分 最 优 , 存 在 局 部 极 值 问 题 。Al. Sultan 
等 人 采用 模拟 退火 算法 使 结果 收敛 于 全 局 最 优 ,它们 均 为 近代 算法 。 

(2) 通过 模糊 方法 得 到 确定 的 结果 ,每 个 模式 仅 从 属于 特定 的 类 ,如 Miyamoto 等 人 提 
出 的 算法 ,需要 反复 计算 分 类 对 象 之 间 的 模糊 相似 度 。 

日 前 ,有 关 模 糊 聚 类 的 研究 大 多 是 对 模糊 c 均值 的 推广 与 改进 。 

大 致 地 ,模糊 聚 类 算法 包括 系统 聚 类 法 、 传 递 闭 包 法 、 最 小 支撑 树 ( 如 Prim 和 Kruskal 
算法 ) 动态 直接 聚 类 法 、 模 糊 均值 和 人 工 神经 网 络 等 。 

模糊 聚 类 中 ,对 象 对 各 个 类 的 隶属 度 值 介 于 [0,1] 区 间 。 模 糊 聚 类 考虑 到 了 对 象 之 间 的 
联系 ,认为 每 一 对 象 与 各 聚 类 中 心 都 存在 着 一 定 的 隶属 关系 。 模 糊 聚 类 能 够 有 效 地 对 类 与 
类 之 间 存 在 交叉 的 数据 集 进 行 聚 类 ,所 得 到 的 聚 类 结果 明显 优 于 传统 聚 类 。 一 般 地 ,模糊 聚 
类 要 求 每 一 对 象 对 各 类 的 隶属 度 之 和 为 1, 这 一 约束 是 对 划分 情况 的 概率 约束 。 但 是 ,这 一 
约 东 无 法 反映 对 象 的 典型 性 ,对 含有 噪声 的 数据 集聚 类 很 不 理想 。 与 传统 聚 类 算法 相 比 , 通 
常 模 糊 聚 类 算法 的 收敛 速度 要 慢 。 

模糊 聚 类 方法 已 被 广泛 应 用 到 数据 挖掘、 模式 识别 、 机 器 学 习 以 及 决策 支持 等 领域 。 例 
如 可 依据 “体重 /身高 ”, 把 人 分 成 “ 胖 人 集 ”“ 不 胖 不 瘦 集 ”和 “ 瘦 人 集 ” 等 ; 对 超市 可 根据 “月 
底 销 售 数量 /月 初 库存 ”, 确 定 出 “畅销 商品 集 ” 与 “滞销 商品 集 ”, 并 进一步 分 析 在 同一 类 别 内 
的 商品 之 间 的 销售 相关 性 以 支持 营销 决策 等 。 此 外 ,模糊 聚 类 还 可 以 应 用 到 对 多 维 图 像 的 
识别 与 分 割 、 天 然 中 草药 分 类 等 。 

设 数据 对 象 集合 为 外 二 {x ,zz ，… en) V x;EX, 其 样本 zx; 一 (xa ,zz ett rg ,Xx 表示 
第 ; 个 对 象 的 第 & 个 属性 。 模 糊 相 似 矩 阵 (Fuzzy Dissimilarity Matrix) (rj ),x, 用 于 存储 
个 对 象 彼此 之 间 的 模糊 相似 度 , 是 一 个 nxXn 维 的 对 角 线 元 素 为 1 的 对 称 和 矩阵 , 即 ; 


ma Fa re … 1 
常用 的 计算 模糊 相似 度 的 方法 包括 : 
CD 数量 积 法 


l. i=j 
Tij = c. * . 
lids. izj 
Jh. M= max E iss | 如 果 为 负 值 ,可 用 式 (6.40) 修 正 。 
7073) \ k=l 
令 
r= 2H, We [0,1] 


(2) 夹 角 余 弦 法 
X 2s 


r = 一 -一 -一 一 
m m 

| 312h D 
k=1 k=1 


D Cra — zi) zn —;) 
k-1 


Dra n) |D a- 
k=1 k=1 


(3) 统计 相关 系数 法 


Tij 


其 中 ， 
T= 六 De ， Xj 二 pp 
(4) 最 大 最 小 法 
Mos N xg) 
fy pen £l 
Ga V Ta) 
(5) 算术 平均 法 
25) Ga N ta) 
ry = + 


(6.38) 


(6. 39) 


(6. 40) 


(6.41) 


(6.42) 


(6. 43) 


(6.44) 


dio 


Sp SPHERE 


(6) 几何 平均 最 小 法 


3 06 A xg) 
ry = © (6. 45) 
25 NT jk 
k-l 
(7) 绝对 值 指 数 法 
ry 一 eot (6. 46) 
(8) 指数 相似 系数 法 
ES Ga ra Y 
rs Se 一 (6.47) 
(9) 绝对 值 倒数 法 
l; i=j 
" „M izj (6. 48) 
D | Tik 一 Tjk | 
k=l 
适当 选取 M, 使 r; € [0.1]. 
(10) 绝对 值 减 数 法 
rg 一 icd» | xa — za | (6. 49) 
k=1 
适当 选取 c, 使 r; € [0.1]. 
6.2.2 主要 算法 
下 面 介绍 几 种 主要 的 模糊 聚 类 算法 。 
1. 模糊 c 均值 


目前 ,模糊 聚 类 算法 中 应 用 最 广泛 而 且 较 成 功 的 是 1974 年 由 Dunn 提出 并 由 Bezdek 
加 以 推广 的 模糊 c 均值 (Fuzzy c-means. FCM), 
假设 待 聚 类 样本 数 为 n, 聚 类 数 为 c, 特 征 数 为 ;, 则 有 如 下 定义 : 
定义 6.1 HERE X — Gn ,zs，…,z,}) 是 任 一 有 限 集 ,XCR’,V。 是 c Xn 阶 实 和 矩阵 的 集 
合 ,c JE RC Le , 则 称 下 述 集合 为 X 的 模糊 c 均值 划分 空间 : 
Mp = [U E€ Va pom us < 1; Visky Dm = 1 VEO L Du <n va] (6.50) 


k=1 


其 中 ua EREE E U EMH i 行 k 列 元 素 , 表 示 zx AFŽ i 的 隶属 度 值 。 
定义 6.2 Bv ECR 是 类 别 i 的 聚 类 典范 值 ( 中 心 ) 矢 量 , 定 义 c 聚 类 典范 值 矩 阵 为 : 

V = (9 v; 7, 0)7 (6.51) 
模糊 c 均值 的 目标 函数 J。 定义 为 : 


JQ.V) — J) Y Ga" (la* (6.52) 


k=1 i-l 
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HG -—lzx-—vwl?*.l * | E R 上 任 一 内 积 导 出 的 范 数 ; m 是 加 权 指 数 ， 
m€[1.95), 

目标 函数 的 值 是 样本 数据 到 c 聚 类 典范 值 的 平方 距离 的 加 权 累 计 和 ,权重 由 和 模糊 
隶属 度 函 数值 共同 确定 。J 反映 在 某 种 差异 性 定义 下 的 类 内 紧 致 度 。J。 越 小 , 聚 类 越 紧 
致 ; 而 m 越 大 , 紧 致 度 的 模糊 性 越 大 ,因为 m 控制 隶属 度 在 各 类 之 间 共 享 的 程度 。 

FCM 算法 步骤 如 下 : 

(D 设 定 和 迭代 停止 阔 值 e 为 一 小 正 数 ; 初始 化 迭代 次 数 为 /二 0 BU ; 

© 将 U9 代 和 人 式 (6.51) 计 算 c- REUS (BE VC? ， 


Y az 
v =+ 
D(a)” 
k=1 
© AHVO gig U” ,其 过 程 如 下 : 


VY 样本 zi ,计算 类 别 标号 的 集合 : = GL ied —0) RI, — (0.2.70) o 
如 果 I, — 9$. 0] 


Vi (6.53) 


1 


以 一 一 -一 (6. 54) 
aa )2/orD 
j= 
否则 
ux —0, Viel, H»j4-1 (6.55) 
ie, 


选用 合适 的 矩阵 范 数 比较 02 和 UVP Lp (UT? —U'? e, , 则 停止 迭代 ; 否则 /二 
/十 1 , 转 至 步骤 四 。 

FCM 算法 中 ,模糊 指数 m 的 取 值 是 关键 。m 值 越 大 , 聚 类 的 范围 越 大 ,隶属 度 函 数 的 
模糊 程度 越 大 。 当 疡 趋 近 1 时 ,FCM 相当 于 硬 c 均值 ,所 以 mm 不 应 该 趋 近 1。 目 前 还 没有 
发 现 确定 合适 m 值 的 方法 。 根 据 经 验 一 般 取 1. 1—m-—5. Pal 等 人 从 聚 类 有 效 性 方面 研究 
得 到 m 的 最 佳 取 值 范围 是 L[1.5,2.5], 且 一 般 m —2. 

FCM 的 本 质 是 使 聚 类 中 所 有 样本 到 聚 类 中 心 的 距离 平方 和 最 小 。 通 过 优化 模糊 目标 
函数 得 到 每 个 样本 对 类 中 心 的 隶属 度 。 但 是 ,FCM 有 时 会 收敛 到 局 部 极 小 值 ,这 限制 了 
FCM 算法 的 应 用 。 

2. 模糊 关系 传递 闭 包 

设 有 nn 个 样本 U= (zi ,zs，,…,x,), 其 中 每 个 样本 具有 m 个 特征, 即 mm Gra ,zxz，*…， 
ZXm)。 利 用 多 元 分 析 方法 建立 样本 之 间 的 模糊 关系 R:UXU 一 [0,1], (zi,zj)ER 的 程度 通 
常用 隶属 度 函 数 jr (zi sac; KIR ,pr Gi in; BERI ci n 的 相似 值 ,满足 Op Gri sm; < 
lun Gr; 25) — ug Gr; x5)» ug (ZisZj) 越 大 ,两 者 的 相似 度 越 高 ,定义 pyr (xi,zi) 二 1,i 二 1， 
2,…,n。 模 糊 关系 的 确定 方法 采用 距离 法 ,例如 切 比 雪夫 距离 yx (xi,zj) 二 1 一 c max | 一 
cg | ,其 中 c 表示 一 个 常数 ,或 海 明 距离 、 欧 氏 距 离 和 相似 系数 等 。 由 n 个 样本 之 间 的 模糊 
关系 形成 一 个 nXn ERE RS Gag Gr; a; x, PRR 为 模糊 相似 矩阵 。 
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设 UV RW 分 别 表 示 三 个 论 域 , 若 RS 分 别 为 UXV 和 VXW 上 的 模糊 关系 ,定义 关 

系 的 合成 ReS 为 UXW 上 的 模糊 关系 ,其 隶属 度 函 数 定义 为 : 
LR-s (X32) = {max{min[pr Ges) ,ps Cy,2)])} (6.56) 

其 中 ,VxEU,VzEW。 

车 RR 是 U 上 的 模糊 关系 ,并 满足 Re*RSCR, 则 称 R OEC (xh RIA 

若 模糊 相似 矩阵 R 满足 传递 性 , 则 称 R 为 等 价 关系 。 对 任意 的 a€ [0,1], 集 合 R= 
(Cry) Lig Ge» 30 Za VERS R Wa RE a 称 为 截 集 阔 值 。 若 尺 为 模糊 等 价 关 系 , 则 对 任意 
aE[0,1],R。 也 为 模糊 等 价 关系 ,有 时 称 R 为 a REE. Æ R。 为 等 价 窍 阵 , 则 YzEU， 
Lx ] — Ly lua Ge» 32 Za ]EJ U EDGE BRL (ÉL o. 的 模糊 聚 类 。 

模糊 相似 矩阵 尺 的 传递 闭 包 是 指 包含 R 的 最 小 模糊 等 价 和 矩阵 。 利 用 平方 法 可 以 求 得 
模糊 相似 矩阵 的 传递 闭 包 。 

定理 6.1 WE R Jg n 阶 模糊 相似 矩阵 , 则 存在 一 个 最 小 自然 数 E Oeo ,使 得 传递 闭 包 
IR) =R, HIJ — WKF k AARAL EAR =R. 

定理 6. 1 WH JA BUBLIE DB E R 开始 ,利用 平方 依次 计算 RRR, ERRI R 
R'—R* 时 ,R WEEBER). i RIS Jg BOWIABIDOBIE R= Gru, S— Csi nxn o Bl 


R © S= Gs Dinh sty = V Ga As). 
基于 模糊 关系 传递 闭 包 的 模糊 聚 类 算法 的 步骤 如 下 : 
CD 确定 集合 X — Gn sans ,zs} 上 模糊 相似 矩阵 R 和 一 个 截 集 阔 值 。 
@ 采用 自 乘法 将 R 按 如 下 计算 构造 为 一 个 模糊 等 价 矩 阵 : 
R-R-R 
RR =R 


直到 存在 人 ,满足 R^ —R' MU R* BA — AAR SEE E o 
© 计算 模糊 等 价 和 矩阵 的 a WIERE R, = Cria nxa o E 


Tija 一 
0. rj «a 


CD 输出 模糊 聚 类 结果 ,即将 a 截 矩 阵 中 相同 行 的 样本 归 为 一 类 ,表示 为 
[x] = {y | R (£y) Z al 

C 若 满 足 聚 类 终止 条 件 , 则 停止 ; 否则 ,改变 截 集 阔 值 a, 转 至 步 又 @。 

该 算法 中 将 模糊 相似 矩阵 改造 成 模糊 等 价 矩 阵 采 用 自 乘法 ,计算 时 间 较 长 ,其 时 间 复 杂 
EH OG? logen). 

3. 最 小 支撑 树 

最 小 支撑 树 算法 的 步骤 如 下 : 

(D 建立 模糊 相似 矩阵 

@ 构建 最 小 支撑 树 

© RŽ 


典型 的 最 小 支撑 树 算 法 包括 Prim 算法 和 Kruskal 算法 。 
设 待 聚 类 对 象 集合 为 {1,2,3,4,5} ,给 定 如 下 的 模糊 相似 矩阵 : 
1 
0.1 1 
及 一 |0.8 0.1 1 

0.5. 0;2 0,3 1 

0.3. 0.4 0.1 0,6 1 
D Prim 算法 
(D 先 取 对 象 1, 在 对 象 2.3.4 和 5 中 , 找 出 与 1 相似 度 最 大 的 ,可 得 
0. 8 王 R(G1,3) , 即 : 

0.8 


1—3 
在 对 象 2.4 和 5 中 ,找到 与 对 象 1 相似 度 最 大 的 0.5— RO 420 , 找 出 与 对 象 3 相似 度 最 
大 的 0. 3 - RG.4). K 0.5770. 3.009] S 4.688] 


0.5 0.8 


4 一 一] 一 一 3 


然后 在 对 象 2 和 5 中 , 找 出 与 对 象 1.3 和 4 相似 度 最 大 的 0. 6 一 R(4,5) ,得 到 


0.6 ，0.5 0.8 
5—4] 3 


最 后 , 找 出 对 象 2 与 1.3、4 和 5 之 间 相 似 度 最 大 的 0. 4 — RO 50 ,得 最 小 支撑 树 , 即 : 


0.4 0.6 0.5 0.8 


2—5 一 一 4 一 一 ] 一 一 3 

© 取 XE[0,1], 砍 断 连接 权重 小 于 4 的 枝 ,可 以 得 到 一 个 不 连通 的 图 ,而 各 连通 分 支 就 
构成 了 4 水平 上 的 分 类 。 

若 取 AE[0,0.4], 则 只 得 一 类 {1,2,3,4,5}; ÆW AE (0.4,0.5), 则 得 两 类 {2)、{1,3， 
4,5}; 车 取 AE(0.5,0.6), 则 得 到 三 类 {2}、{4,5} 和 {1,3); 若 取 AXAE (0.6,0. 8), 则 得 四 类 
12) 45)  (48001.3) ; 车 取 和 AE(0. 8,1) , 则 得 五 类 {1}、{2}、{3}、{4} 和 {5)。 

2) Kruskal 算法 

CD 首先 在 R 的 非 主 对 角 线 中 找到 最 大 元 0. 8— RO 32185. 


0.8 


3—1 


再 找 次 最 大 元 0.6—RGL5) 688. 


0.8 0.6 
3—1 4 一 一 5 


然后 找到 0. 5— RO 4 ,得 到 : 


0.8 0.5 0.6 
E 


3—1—4—5 


最 后 得 到 0. 4=R(2,5), EIC Pr Tt es EE 9. ELA T8] aeh E B: 


0.8 0.5 0.6 0.4 


人 
© 同 Prim 算法 中 的 步骤 @ 。 
采用 上 述 两 种 方法 所 得 的 最 小 支撑 树 可 能 不 同 , 但 可 以 证 明 其 聚 类 结果 相同 。 其 中 ， 


Prim 算法 的 复杂 度 最 多 为 o[ 加 | „Kruskal 算法 的 复杂 度 最 多 为 OG logn). 


150 


原理 及 应 用 


6.3 评价 


聚 类 分 析 是 一 种 无 监督 的 学 习 , 事 先 对 给 定数 据 集合 的 结构 一 无 所 知 ,没有 利用 任何 先 
验 知识 。 无 论 采 用 哪 种 聚 类 算法 ,其 聚 类 结果 的 合理 性 和 有 效 性 都 有 待 评价 。 聚 类 有 效 性 
评价 对 聚 类 分 析 具 有 重要 意义 。 对 于 相同 的 数据 集合 ,采用 不 同 的 聚 类 方法 ,可 能 得 到 不 同 
的 聚 类 结果 。 即 便 是 采用 同一 种 聚 类 方法 , 若 初始 参数 (如 聚 类 数 、. 聚 类 中 心 等 ) 选 择 不 同 也 
可 能 会 得 到 不 同 的 结果 。 例 如 ,采用 同一 种 k 均值 聚 类 算法 对 同一 个 Wine 测试 数据 集 ( 来 
Á UCI 机 器 学 习 数据 库 ) 进 行 聚 类 , 当 预 设 聚 类 类 别 数 分别 为 1 一 8 时 , 则 得 到 的 聚 类 正确 
率 是 不 同 的 ,如 图 6.7 所 示 。 

"gg 


20 


Ee ee 


预 设 类 别 数 ? 2T3T4T15T6T7Ts 
1949|933|803|489|55.1|433| 


图 6.7 不 同 的 聚 类 数 初 值 导 致 k 均值 的 聚 类 正确 率 不 同 


此 外 ,对 于 基于 目标 函数 的 聚 类 算法 ,迭代 优化 易 收敛 于 局 部 极 值 ,难以 获得 全 局 最 优 
解 。 以 均值 为 例 , 常 采用 梯度 下 降 法 实现 迭代 。 由 于 梯度 法 的 搜索 方向 是 沿 着 能 量 减 小 
的 方向 进行 ,因此 易 陷 入 局 部 极 值 。 例 如 ,对 于 图 6. 8 所 示 的 由 12 个 对 象 组 成 的 集合 ,显然 
不 管 采用 什么 聚 类 方法 ,其 结果 均 应 为 3 类 ,结论 应 该 是 一 致 的 。 然 而 ,理论 分 析 和 仿真 实 
验 均 表 明 , 使 用 k 均值 求解 这 一 简单 问题 时 ,经 常会 出 现 错 解 或 无 解 的 情况 。 若 按 横 坐标 从 
小 到 大 将 对 象 依次 编号 为 1 一 12, 当 3 个 初始 中 心 分 别 选取 2、3 和 6, 或 6.10 和 11 或 1、 
4 和 8 时 ,算法 均 得 出 错误 的 结论 ; 当 3 个 初始 中 心 选取 1、4 和 10 时 ,算法 得 不 到 任何 解 。 
为 了 克服 上 述 问题 ,近年 来 提出 了 多 种 算法 以 提高 0 2 4 6 8 10 2 
目标 函数 的 优化 效率 。1999 年 Krishma 根据 遗传 S ROS 
算法 的 原理 以 k 均值 算 子 代替 遗传 算法 中 的 交叉 5 
算 子 ,提出 了 一 种 混合 遗传 算法 ; 2000 年 Mali 采 4 
用 聚 类 中 心 的 浮 点 编码 方法 ,并 设计 了 浮 点 数 交 叉 3 
和 变异 算 子 ,从 而 提高 聚 类 算法 的 搜索 效率 。 但 ， 
是 ,仿真 实验 表明 , 当 聚 类 数目 、 对 象 个 数 和 维度 较 
大 时 ,这 两 种 基于 遗传 算法 的 聚 类 经 常会 出 现 早熟 
现象 。 聚 类 规模 越 大 ,早熟 现象 越 容易 发 生 , 而 且 图 6.8 k 均 值 算法 失效 的 实例 


由 于 进化 算法 在 进化 过 程 中 可 能 产生 退化 现象 ,从 而 导致 迭代 次 数 过 多 以 及 聚 类 准确 率 不 
高 ,并 且 可 能 出 现 进 化 后 期 的 波动 现象 ; 2003 年 行 小 帅 等 提出 了 基于 免疫 规划 的 k 均值 聚 
类 算法 ,其 主要 思想 是 在 合理 提取 免疫 疫苗 的 基础 上 ,通过 接种 疫苗 和 选择 操作 分 别提 高 个 
体 的 适应 度 并 防止 群体 的 退化 ,从 而 有 效 地 避免 局 部 极 值 ,具有 良好 的 全 局 寻 优 性 。 

如 何 评价 不 同 聚 类 算法 的 性 能 呢 ? 评价 聚 类 算法 的 一 般 标 准 包括 : 

1. 可 伸缩 性 

即 算法 中 模式 数 增 大 的 情况 。 有 些 算 法 在 模式 数量 小 的 情况 下 ,算法 性 能 很 好 ,但 是 模 
式 数量 增 大 后 ,算法 性 能 下 降 。 如 k 中 心 点 算法 , 它 对 小 的 数据 集 非 常 有 效 , 但 对 大 的 数据 
集 不 具有 良好 的 可 伸缩 性 。 

2. 高 维 性 

即 算法 中 模式 属性 个 数 增加 的 情况 。 有 些 算 法 只 擅长 处 理 低 维 数据 ,高 维 空间 的 聚 类 
是 一 个 挑战 ,特别 是 非常 稀 朴 和 偏 斜 的 数据 。 

3. 发 现任 意 形状 的 聚 类 

一 个 簇 可 能 是 任意 形状 的 ,但 一 般 的 聚 类 算法 是 基于 欧 氏 距离 和 曼哈顿 距离 实现 聚 类 ， 
更 趋 于 发 现 球 状 簇 ,在 这 方面 基于 密度 的 方法 较 好 。 

4. 处 理 噪声 的 能 力 

噪声 可 能 是 数据 本 身 不 完整 ,也 可 能 是 孤立 点 。 有 些 算法 不 善于 处 理 孤 立 点 数据 ,由 此 
还 专门 出 现 了 发 现 孤 立 点 的 算法 。 

5. 用 于 决定 输入 参数 的 领域 知识 最 小 化 和 输入 顺序 敏感 性 

一 方面 要 求 降低 算法 对 输入 参数 的 敏感 程度 , 另 一 方面 要 求 输入 顺序 对 算法 结果 的 影 
响 小 。 如 k 均值 算法 ,需要 预先 给 出 篮 的 数目 ,这 一 参数 非常 影响 聚 类 结果 ,这 常常 是 高 效 
率 算法 的 弱点 。 

6. 可 解释 性 和 可 用 性 

聚 类 结果 需要 表现 为 一 定 的 知识 , 即 要 求 聚 类 结果 可 解释 、 易 理解 。 这 与 可 视 化 密切 相 
关 , 同 时 也 与 实际 应 用 有 关 。 如 SOM 算法 用 于 文本 聚 类 可 以 产生 知识 地 图 ,具有 良好 的 可 
视 化 功能 。 

1965 年 ,Zadeh 首次 给 出 聚 类 有 效 性 的 度量 一 一 分 离 度 (degree of separation)。 但 是 ， 
后 来 发 现 它 对 模糊 聚 类 有 效 性 的 判断 并 不 十 分 有 用 ; 1974 年 Bezdek 提出 划分 系数 
(partition coefficient) ,这 是 第 一 个 有 用 的 度量 聚 类 有 效 性 的 泛 函 , 旨 在 度量 各 聚 类 之 间 的 
“EA HE. 

定义 6.3 设 UEMA 为 集合 X 的 模糊 c W.| X| =n,2<c<n, WU 的 划分 系数 是 : 

b 


F(U;c) = += (6.57) 


其 中 ,n 为 数据 集 的 对 象 个 数 ,c 为 模糊 聚 类 个 数 ua 为 数据 对 象 A 属于 类 i 的 模糊 隶属 
度 。 若 所 有 的 ws 接近 0 或 1, 则 炉 小 ,所 给 出 的 聚 类 效果 较 好 ; 若 wi 接近 0.5, 则 聚 类 的 模 
糊 程 度 高 WAK, RKA RRA. 最 佳 有 效 划分 是 max{max{F(U3c))})。 其 主要 缺点 是 具 
有 单调 下 降 趋 势 以 及 与 数据 集 本 身 的 特征 缺少 直接 关联 。 

类 似 地 ,Shannon tE T Xil 414i Cclassification entropy) 。 


定义 6.4 设 UEM 为 集合 X 的 模糊 c X| Sn, 1e. WU U ffl : 
= 5 X log, Cuz ) 


H(U;0) 二 (6.58) 


n 


Hpac, o), HRE uj; —0 则 u; log, Cu5) —0, 最 佳 有 效 划分 是 min{min{ H(U; 


)}。 划 分 系数 与 划分 炉 两 者 之 间 的 关系 可 表示 为 : 
0<1—F(U;c) < H(U;c)/log, Ce) (6.59) 
其 中 ,a€ (1,co), 且 e 一 2.718… 
为 了 克服 上 述 两 种 有 效 性 函数 的 不 足 Windham 提出 比例 指数 (proportion 


exponent) 。 
定义 6.5 设 UECMF 一 Me) 为 集合 X 的 模糊 c WIX | —n. 2c no F U H k 
J| CH en) ,使 
u = maxlua) = V Us (6. 60) 
i=l 
[u;! ] = greatestint eger < (i) (6.61) 
k 
则 口 的 比例 指数 是 : 


[1-1] c 
P(U;c) —— log, UP a" ) (1=7=V w) h} (6. 62) 

最 佳 有 效 划分 是 max (max{ P(U 591) 

后 来 ,Gunderson 提出 分 离 系数 (separation coefficient) ,考虑 了 数据 集 的 几何 特征 ,但 
无 法 直接 应 用 于 模糊 聚 类 ,必须 首先 将 模糊 聚 类 转换 为 硬 聚 类 。 

直到 1989 年 Xie 和 Beni 提出 了 Xie-Beni 方法 , 才 使 聚 类 有 效 性 问题 得 以 进一步 发 展 。 

设 数据 集 X={X j 1.2. n) RA c 个 模糊 划分 ,Vi(i 一 1,2,…',c) 为 各 聚 类 中 心 ， 
pi G—1.2, 7 0j 1,2. sn) 为 数据 对 象 j 属于 类 ; 的 模糊 隶属 度 。 

定义 6.6 ds 二 pi | XV: || 28 X; 与 类 i 的 模糊 偏 移 。 

由 定义 6.6 可 知 , | 。 | 为 通用 的 欧 氏 范式 ,dj 为 X; 与 V; 之 间 的 欧 氏 距离 。 

定义 6.7 m= jn 为 类 i 的 模糊 势 。 

由 定义 6.7 n[ All n; = Min 一 2 在 硬 划分 的 极端 情况 下 n; 具有 确定 的 数值 , 即 类 i 中 
的 矢量 个 数 。 

定义 6.8 o= PI = (da) + (da! + + Gl? HA i 的 偏差 , 即 对 于 任意 
的 类 i 所 有 数据 对 象 偏 移 的 平方 和 ，o 二 Jio, = Di Dj GLO 为 所 有 到 类 的 总 偏差。 


由 定义 6.8 可 知 ， 它们 并 没有 进行 标准 化 处 理 ， .并 且 与 所 选用 的 坐标 系 有 关 。 c 值 越 
小 , 则 聚 类 效果 越 好 。 


定义 6.9 x 一 二 为 数据 集合 模糊 划分 的 紧 致 度 , 即 总 偏差 与 数据 集 大 小 的 比率 。 
zt 值 表示 每 一 聚 类 的 紧 致 程度 , 聚 类 越 紧密 , 则 x 值 越 小 ,表明 数据 集 本 身 的 分 布 特点 ， 


与 对 象 数量 无 关 。r 值 小 , 则 表明 聚 类 效果 较 好 。Gath 和 Geva 给 出 了 一 种 模糊 超 体积 的 
有 效 性 度量 (加 权 总 偏差 ) ,可 以 判断 椭圆 体 聚 类 以 及 重 到 的 聚 类 。 

定义 6. 10 元 一 全 为 类 ; 的 紧 致 度 。 

因为 类 i 中 的 矢量 个 数 为 n;, 所 以 o; /n; 为 类 i 的 平均 偏差 。 此 外 ,模糊 c 划分 的 紧 致 度 
还 可 以 定义 为 x — ( >)izr;) /c 或 + 二 maxxi。 

定义 6.11 std 为 模糊 c 划分 的 分 离 度 ,其 中 dun — min l| V; —V; | 为 各 聚 类 中 
心 之 间 的 最 短 距离 。 

s 值 越 大 , 则 表明 所 有 的 聚 类 都 是 分 离 的 。 

定义 6. 12 S= 二 为 基于 紧 致 度 和 分 离 度 的 有 效 性 两 数 , 即 : 


$4 I V; — x, l? 
“amin V. — Vj I? 

由 定义 6.12 可 知 ,S 的 定义 与 计算 所 采用 的 广 法 无 关 。S 越 小 , 则 表明 所 有 聚 类 紧 
密 且 相互 独立 。 随 着 c 的 增加 而 接近 时 ,S 将 单调 递减 。 为 此 ,可 引入 专门 的 惩罚 函数 以 
消除 递减 趋势 。 即 使 不 采用 惩罚 函数 ,有 效 性 函数 S 仍然 是 一 种 行 之 有 效 的 方法 。 

由 此 给 出 一 种 采用 S 作为 有 效 性 函数 的 启发 策略 。 对 于 任何 一 种 模糊 聚 类 算法 ,发 现 
数据 集 X 的 一 个 或 多 个 最 佳 c 划分 (c= 二 2,3,…,n 一 1) 可 表示 为 : 

,Jnin, { minS} (6.64) 

其 中 ,Q. 为 对 于 每 个 c 的 最 适合 的 候选 数据 样本 。 

有 效 性 函数 S 和 划分 系数 下 都 是 判断 模糊 聚 类 有 效 性 的 标准 , 均 可 以 直接 使 用 ,但 两 
者 也 存在 不 同 之 处 。 首 先 ,F 与 任意 模糊 子 集 之 间 的 平均 重 全 程度 成 反比 ,而 S 与 平均 紧 致 
度 和 分 离 度 成 正比 ; 其 次 ,下 缺少 与 数据 集 本 身 某 些 特征 的 直接 关联 ,而 S 则 与 数据 集 的 几 
何 特征 ,距离 的 度量 方法 及 聚 类 中 心 的 位 置 等 存在 着 直接 关系 。 

后 来 又 给 出 了 一 个 新 的 划分 系数 PCu,c)， odd lg FP(u,c) 为 


FP(u,c) = PG.) z (6.65) 


XE] 


=] \ k=1 


基于 聚 类 本 身 的 物理 意义 给 出 了 一 个 模糊 聚 类 有 效 性 函数 7(X,c) 。 
定义 6.13 AEX— (a^ p— 1,2, , N) ER" ,样本 zx? 一 (zp ,zw Tp) VERE 
数 为 c(2 三 c 二 N), 聚 类 中 心 为 w= 二 Cm vy sv)" ER, WRES M. 是 X 的 一 个 模糊 
c 划 分。 
M. = (v € Vadgs € [Do thVjsda Su = S < N yj 
j=l p=1 
(6. 66) 
ERG. 66) 中 ,py — n; Ca^) o a^ 属于 第 ) RRR JEU S Ga us us uj = 
Cu sug tt ug ) 是 样本 X 的 第 j 个 聚 类 集合 ,Vw 是 cXN 阶 实 和 矩阵 的 集合 。 


S= (6.63) 


原理 及 应 用 


根据 定义 6. 13 ,模糊 划分 的 紧 致 度 定义 为 FCM 划分 的 平均 方差 , 即 : 


€ N 
V(X,c) = x2 Sub, G^ — v) 'AG* —vj) (6.67) 


其 中 ,A 为 n Xn 正定 加 权 和 矩阵 ,可 将 欧 拉 空间 扩展 到 其 他 空间 。 
根据 定义 6. 13 ,模糊 划分 的 分 离 度 定义 为 不 同 聚 类 中 心 之 间 的 平均 距离 , 即 : 


el € 
Dw) TÈ 2 o v) T AC; — 9) (6.68) 


j=lh=jH 


其 中 ,|R| 为 集合 R={C v) ldCo o) = || vio ll iz 1h m. 
模糊 聚 类 有 效 性 函数 OC OE XU : 
VO .c) 
$v) 

有 效 性 函数 7(X,c) 被 定义 为 紧 致 度 和 分 离 度 之 比 。 显 然 ,模糊 划分 形成 的 同一 聚 类 中 
的 对 象 靠 得 越 紧 , 不 同 聚 类 中 心 的 距离 越 远 , 则 模糊 聚 类 结果 的 合理 程度 越 好 。 模 糊 聚 类 的 
合理 划分 即 尽 量 使 7(X,c) 越 小 越 好 ,这 样 则 代表 了 一 个 最 有 效 的 划分 ,并 由 此 确定 聚 类 
数 c。 

但 是 , 随 着 c 增加 而 接近 N 时 , 聚 类 有 效 性 函数 7(X,c) 具 有 单调 性 。 

聚 类 有 效 性 是 聚 类 分 析 的 一 个 瓶颈 ,对 于 聚 类 的 成 功 应 用 将 产生 十 分 深远 的 影响 。 


qc = (6.69) 
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第 7 章 分 类 和 预测 


分 类 (classification) 是 数据 挖掘 的 主要 功能 之 一 ,通过 分 析 类 别 已 知 的 训练 数据 集 , 获 
得 描述 并 区 分 类 别 或 概念 的 模型 ,使 用 该 模型 预测 并 标记 未 知 对 象 所属 的 类 别 。 

分 类 的 目的 是 分 析 输 入 数据 ,通过 训练 集中 数据 表现 出 来 的 特性 ,获得 每 个 类 别 准 确 的 
描述 或 模型 ,这 种 描述 常常 用 谓词 表示 ,使 用 类 别 描述 对 未 知 对 象 进行 分 类 。 尽 管 这 些 测试 
数据 的 类 别 是 未 知 的 , 仍 可 预测 这 些 新 数据 所 属 的 类 。 注 意 是 预测 ,而 不 能 肯定 。 

分 类 的 评价 遵循 以 下 标准 : 

。 预测 准确 率 ” 指 模型 能 够 正确 预测 未 知 对象 类 别 的 能 力 。 

。 速度 ” 指 构造 和 使 用 模型 时 的 计算 效率 。 

。 重 棒 性 指 在 数据 带 有 噪声 或 数据 有 缺失 的 情况 下 ,模型 仍 能 进行 正确 预测 的 

能 力 。 

。 可 扩展 性 指 对 处 理 大 量 数据 并 构造 有 效 模型 的 能 力 。 

。 EE ” 指 所 获 模型 提供 的 可 理解 程度 。 

分 类 是 一 种 有 监督 的 学 习 , 其 目的 是 根据 训练 数据 集 找 出 能 准确 描述 并 区 分 类 别 或 概 
念 的 模型 ,以便 依据 实体 的 属性 值 及 其 他 约束 条 件 将 其 划分 到 某 一 类 别 中 。 目 前 ,主要 的 分 
类 算法 包括 决策 树 、 贝 叶 斯 、 神 经 网 络 .遗传 算法 .粗糙 集 和 实例 推理 等 。 

(1) 决策 树 是 经 典 的 分 类 算法 ,采用 自 项 向 下 递归 、 各 个 击破 的 方式 构造 决策 树 。 树 的 
每 一 个 结 点 使 用 信息 增益 选择 属性 ,从 生成 的 决策 树 中 可 提取 分 类 规则 。 

(2) KNN((K-Nearest Neighbor. K 最 近邻 ) 是 由 Cover 和 Hart 于 1968 年 提出 ,算法 主 
要 思路 非常 简单 直观 , 即 如 果 一 个 样本 在 特征 空间 中 的 个 最 相似 (特征 空间 中 最 邻近 ) 的 
样本 中 的 大 多 数 属于 某 个 类 别 , 则 该 样本 也 属于 这 一 类 别 , 即 分 类 时 只 依据 最 邻近 的 一 个 或 
几 个 样本 所 属 的 类 别 决 定 待 分 类 样本 的 类 别 。 虽 然 ,KNN 在 原理 上 也 依赖 于 极限 定理 ,但 
在 分 类 决策 时 ,只 与 极 少量 的 相 邻 样本 有 关 。 因 此 ,该 方法 可 以 较 好 地 避免 样本 不 平衡 的 问 
题 。 另 外 ,由 于 KNN 主要 依靠 有 限 的 邻近 样本 ,而 不 是 靠 判 别 类 域 的 方法 确定 所 属 类 别 ， 
因此 对 于 类 域 交 叉 或 重 琶 较 多 的 待 分 类 样本 集 而 言 ,KNN 更 为 适用 。KNN 的 不 足 之 处 是 
计算 量 较 大 ,因为 对 每 一 个 待 分 类 的 样本 都 要 计算 其 到 全 体 已 知 样本 的 距离 ,才能 求 得 其 
个 最 近邻 。 目 前 常用 的 解决 方法 是 事先 对 已 知 样本 进行 剪辑 ,去 除 对 分 类 作用 不 大 的 样 
本 。 此 外 ,Reverse KNN 能 降低 KNN 的 计算 复杂 度 ,提高 分 类 效率 。KNN 比较 适用 于 
样本 数量 比较 大 的 类 域 的 分 类 ,而 那些 样本 数量 较 小 的 类 域 采用 这 种 算法 则 较 容易 产生 
误差 。 

(3) SVM(Support Vector Machine, 支 持 向 量 机 ) 由 Vapnik 等 人 于 1995 年 提出 ,具有 
相对 良好 的 性 能 。 该 方法 是 建立 在 统计 理论 上 的 机 器 学 习 方法 。 通 过 学 习 SVM 可 以 自动 
寻找 出 那些 对 分 类 有 较 好 区 分 能 力 的 支持 向 量 ,由 此 构造 的 分 类 器 可 以 最 大 化 类 与 类 的 间 
隔 , 因 而 具有 较 好 的 适应 能 力 和 较 高 的 分 准 率 。 该 方法 是 由 各 类 域 边界 样本 的 类 别 决定 最 
后 的 分 类 结果 。 该 算法 旨 在 寻找 一 个 超 平面 ,该 超 平面 可 以 将 训练 集中 的 样本 分 离 , 且 与 类 
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域 边界 沿 垂 直 于 该 超 平面 方向 的 距离 最 大 , 故 SVM 亦 被 称 为 最 大 边 (maximum margin) 4 
法 。SVM 对 小 样本 量 的 分 类 效果 较 好 。 

(4) 贝 叶 斯 是 一 种 已 知 先 验 概率 与 类 条 件 概 率 的 分 类 方法 , 待 分 类 样本 的 分 类 结果 取 
决 于 各 类 域 中 样本 的 全 体 。 设 训练 样本 集 分 为 M 类 , 记 为 C 二 {a ,cs,… ,cum) ,每 类 的 先 验 
概率 为 P(ci) ,其 中 i 二 1,2,…,M。 当 样本 集 非常 大 时 ,可 以 认为 P(e;)==c; 类 的 样本 数 /总 
样本 数 。 对 于 一 个 待 分 类 样本 X, 其 归于 c; 类 的 条 件 概 率 是 P(X/ci) ,根据 贝 叶 斯 定理 可 
得 到 cj 类 的 后 验 概率 PCc/X) 为 : 

P(c;/X) = P(X/c) PC / PK) (2.1) 
车 PG;/X) = MaxjP(;/X).i = 1,2.-.M,j =1,2,…,M, 则 XEc (7.2) 

式 (7.2) 是 最 大 后 验 概率 判决 准则 ,将 式 (7.1) 代 入 式 (7.2), 则 车 PCc/c)) PC) = Max; 
[P(x/c)P(e)],i==1,2,M,j 二 1,2,…,M, 则 XEc;, 即 常用 的 贝 叶 斯 分 类 判决 准则 。 经 过 
长 期 的 研究 ,理论 上 贝 叶 斯 论证 较 充 分 ,应 用 非常 广泛 。 

贝 叶 斯 分 类 的 不 足 之 处 是 实际 情况 下 类 别 总 体 的 概率 分 布 和 各 类 样本 的 概率 分 布 函 数 
(或 密度 函数 ) 常 常 是 未 知 的 , 若 要 获得 则 要 求 样 本 量 足 够 大 。 另 外 , 贝 叶 斯 分 类 要 求 各 条 件 
概率 相互 独立 ,实际 一 般 很 难 满 足 , 因 此 往往 在 效果 上 难以 达到 理论 最 大 值 。 

分 类 和 回归 都 可 以 实现 预测 ,分 类 预测 的 是 二 元 值 或 离散 的 类 别 , 而 回归 预测 的 是 连续 
或 有 序 值 。 分 类 预测 和 回归 预测 流程 基本 相同 , 即 数据 准备 时 ,从 所 有 数据 集中 提取 部 分 数 
据 , 作 为 训练 集 。 同 时 将 剩余 的 数据 作为 测试 集 ,利用 分 类 算法 对 训练 集 进 行 分 析 , 得 到 分 
类 模型 。 利 用 测试 集 对 训练 后 的 分 类 模型 进行 评估 ,判断 分 类 模型 是 否 准 确 。 最 后 ,使 用 该 
模型 对 未 知 样本 进行 预测 。 

传统 的 预测 方法 包括 趋势 外 推 法 、 时 间 序 列 法 和 回归 分 析 法 等 。 

(1) 趋势 外 推 法 通常 用 描 散 点 图 的 方法 定性 地 确定 变化 趋势 ,再 按照 该 变化 趋势 对 未 
来 情况 做 出 预测 ,特点 是 不 对 其 中 的 随机 成 分 作 统计 处 理 。 

(2) 时 间 序 列 法 将 因 变 量 (预测 目标 ) 和 自 变 量 (影响 预测 目标 的 因素 ) 均 看 成 随机 变 
量 。 实 际 问题 中 ,多 数 预 测 目 标的 观测 值 构 成 的 序列 表现 为 (广义 ) 平 稳 的 随机 序列 或 可 
以 转化 为 平稳 的 随机 序列 。 虽 然 在 某 一 给 定时 刻 预 测 目标 的 观测 值 是 随机 的 ,但 从 整个 
观测 序列 看 , 却 呈 现 出 某 种 随机 过 程 ( 如 平稳 随机 过 程 ) 的 特性 。 随 机 时 间 序 列 方法 正 
是 依据 这 一 规律 建立 和 估计 产生 实际 序列 的 随机 过 程 模型 ,然后 利用 这 些 模型 进行 
预测 。 

(3) 回归 分 析 法 假定 目标 同一 个 或 多 个 独立 变量 存在 关联 ,寻找 关联 关系 的 模型 。 不 
同 于 时 间 序 列 法 的 是 模型 的 因 变 量 是 随机 变量 ,而 自 变 量 是 可 控 变 量 。 回 归 可 分 为 线性 和 
非 线性 ,目前 多 用 多 元 线性 回归 模型 。 


7.1 神经 网 络 
神经 网 络 (Neural Network,NN) 是 由 大 量 神经 元 (又 称 为 处 理 单 元 ) 广 泛 互 连 组 成 的 网 


络 ,是 在 现代 神经 生物 学 基础 上 模拟 生物 过 程 以 反映 人 脑 某 些 特性 的 计算 结构 。 它 不 是 人 
脑 神 经 系统 的 真实 刻画 ,而 只 是 某 种 抽象 .简化 和 模拟 。 信 息 的 处 理 是 由 神经 元 之 间 的 相互 


作用 实现 ,知识 与 信息 的 存储 表现 为 神经 元 互 连 间 分 布 式 的 物理 联系 ,学 习 和 识别 决定 于 各 
神经 元 连接 权 值 的 动态 演化 过 程 。 神 经 网 络 是 一 个 具有 高 度 非 线性 的 超大 规模 连续 的 时 间 
动力 系统 。 

神经 元 是 神经 网 络 的 基本 单元 ,一 般 是 多 输入 / 单 输出 的 非 线性 器 件 , 其 结构 模型 和 
L/O 特性 分 别 如 图 7. 1 和 图 7. 2 所 示 。 


^" i fe) fe) fe) 

X» - 

i ( 

pu (a) (b) © 
图 7.1 神经 元 的 结构 模型 图 7.2 神经 元 的 1/0 特性 


图 7.1 中 ,wi 为 神经 元 的 内 部 状态 ,0; 为 国 值 ,x; 为 输入 ,y; 为 输出 ,www 是 神经 元 u 到 
uj 的 连接 权 值 ,s; 为 外 部 输入 ( 某 些 情况 下 , 它 可 以 控制 神经 元 u 使 其 保持 在 某 一 状态 ) , 神 
经 网 络 模型 可 描述 为 : 
0i 一 Mw; +s: — 6, 


u; = f(o0;) 
yi = giu) —h(o)) h=g.f 7.3) 
常用 的 神经 元 非 线性 特性 描述 如 下 : 
(1) 域 值 型 ,函数 f 为 阶 跃 函数 ,如 图 7.2(a) 所 示 。 
1l, z; 0 
ln E (7.4) 
0. a; «0 


(2) 分 段 线性 型 ,如 图 7.2(b) 所 示 。 
G) S 型 ,一 般 没 有 内 部 状态 并 连续 取 值 ,其 I/O 特性 常用 对 数 或 正切 等 S 型 曲线 表 
示 , 例 如 : 


1 


一 和 exp(Czi) 0.8) 


Xi 


或 


"P iu + tanCo;/z1)] (7.6) 


这 类 曲线 反映 了 神经 元 的 饱和 特性 ,如 图 7. 2(c) 所 示 。 

目前 ,已 有 近 四 十 种 神经 网 络 模型 ,具有 代表 性 的 是 BP(Back Propagation, 反 向 传播 ) 
神经 网 络 、 自 适应 共振 理论 (Adaptive Resonance Theory. ART) , Hopfield 神经 网 络 、 神 经 
认 知 机 、 感 知 器 和 自 组 织 映 射 等 。 其 中 ,BP 神经 网 络 的 应 用 最 为 广泛 ,下 面 将 介绍 BP 神经 
网 络 分 类 器 。 

BP 神经 网 络 由 输入 层 、 隐 层 和 输出 层 组 成 ,如 图 7. 3 所 示 。 

BP 神经 网 络 分 类 器 是 将 训练 样本 的 各 属性 值 作为 输入 ,实际 类 别 作为 输出 。 对 训练 后 
的 BP 网 络 ,通过 前 枝 、 神 经 元 或 活跃 值 的 聚 类 处 理 , 导 出 输入 层 和 输出 层 的 关联 规则 ,根据 
这 些 规 则 实现 分 类 。BP 神经 网 络 中 , 反 向 传播 学 习 通 过 一 个 使 目标 函数 最 小 化 的 过 程 完 成 
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输入 
图 7.3 BP 神 经 网 络 的 结构 


输入 到 输出 的 映射 ,目标 函数 定义 为 输出 层 神经 元 的 期 望 输出 与 实际 输出 的 误差 平方 
和 , 即 : 


E= XE, - 131 Dy - 0* (7.7) 
其 中 ,wj 是 在 输入 第 P 个 样本 时 输出 层 单元 7 实际 输出 0; 的 期 望 输出 。 目 标 函 数 E 
曲面 上 梯度 下 降 由 下 面 的 公式 计算 得 到 : 


JE 3E, 
M. x( ow) 229,40, 


Eu EN 2», (7.8) 
对 于 输出 层 单元 j ,一 般 化 误差 表示 为 : 
à = (ty — Op)g(1— Oy) gO,; (7.9) 
对 于 隐 含 层 ,6y 表 示 为 : 
à, = Oyg (1 Og DW (7.10) 
据 此 可 以 调整 各 连接 权重 和 浆 值 。 


分 类 前 需要 确定 BP 神经 网 络 的 拓扑 结构 , 即 确定 隐 人 层 的 神经 元 个 数 及 各 神经 元 初始 
的 权 值 和 闪 值 。 理 论 上 , 隐 层 的 神经 元 数量 越 多 ,逼近 越 精 确 。 实 际 中 , 隐 层 神经 元 数量 不 
宜 过 多 ; 否则 会 极 大 地 增加 训练 时 间 ,并 造成 神经 网 络 容 错 能 力 下 降 。 同 时 ,为 了 加 速 学 习 
和 训练 , 需 将 训练 样本 各 属性 值 归 一 化 到 区 间 [0.1]。 对 离散 属性 可 重新 编码 ,使 各 阔 值 对 
应 一 个 输入 神经 元 ,例如 输入 样本 P H ospis po WTE oshe ntl 个 输 
入 。 输 出 也 需 进 行 归 一 化 ,主要 针对 实际 类 别 与 输出 神经 元 的 对 应 关系 。 当 只 有 两 个 类 别 
时 ,可 用 一 个 输出 神经 元 表示 (0 表示 一 个 类 别 ,1 表示 另 一 个 类 别 ); 若 实际 输出 多 于 两 个 


类 别 , 则 可 以 每 个 类 别 分 别 对 应 一 个 输出 神经 元 。 

BP 神经 网 络 存在 的 主要 问题 包括 : 

CD 收敛 速度 ”BP 算法 最 大 的 弱点 是 其 训练 很 难 收 敛 ,其 训练 速度 是 非常 慢 的 ,尤其 
是 当 网 络 训练 达到 一 定 的 程度 后 。 

(2) 局 部 极 小 值 BP 算 法 采用 梯度 下 降 法 ,对 一 个 复杂 网 络 而 言 , 其 误差 曲面 是 一 个 
高 维 空间 的 曲面 ,其 中 分 布 着 许多 局 部 极 小 值 , 一 旦 陷入 局 部 极 小 值 则 很 难 逃 离 。 

(D 网 络 瘫 痰 ”在 学 习 训练 中 , 权 值 可 能 变 得 很 大 ,这 会 使 神经 元 输入 变 得 更 大 ,导致 
其 激励 函数 的 一 阶 导数 在 此 点 上 的 值 很 小 。 此 时 的 训练 步 长 会 变 得 非常 小 ,最 终 造成 网 络 
停止 收敛 , 即 出 现 所 谓 的 网 络 瘫痪 。 

BP 神经 网 络 分 类 算法 的 类 C 语言 描述 如 下 : 

输入 : 训练 样本 集合 ,学 习 率 7, 多 层 前 馈 神经 网 络 

输出 : 一 个 用 于 对 样本 分 类 的 BP 神经 网 络 

初始 化 BP 神经 网 络 的 权 值 Wij URL Oj ; 

while 不 满足 训练 终止 条 件 { 


for samples 中 的 各 训练 样本 X { // 正 向 传播 输入 
for 隐 层 或 输出 层 的 各 神经 元 j { 


Ij- XiWi;* Oi +0; // 相 对 于 前 一 层 i, 计 算 神经 元 j 的 输入 T, 
0,7 1/(1 te= 1); // 使 用 对 数 型 的 单 极 性 Signoid 函数 将 各 神经 元 j 的 输出 映 
射 到 区 间 [0,1] 
for 输出 层 的 各 神经 元 j // 反 向 传播 误差 
ERR; = 0,*(1- 0)x(m- 0;); ”// 根 据 训练 样本 的 已 知 类 标号 真实 输出 了 ,计算 神经 元 j 的 
// 误 差 ERR; 


for 从 最 后 1 个 到 第 1 个 隐 层 的 各 神经 元 j 
ERR, = 0, * (1— 0,) * Xk(ERR, * Wk); // 根 据 下 一 较 高 层 中 连接 到 j 的 所 有 神经 元 的 误差 加 
权 值 来 计算 隐 层 神经 元 j 的 误差 ERR 


for BP 神经 网 络 中 的 各 权 值 Wi // 更 新 权 值 
{ 
AW, = 1% ERR, * 0; // 实 际 应 用 时 省 一 般 经 验 性 地 设置 为 训练 样本 集 迭 代 次 数 
// 的 倒数 
Wy = Wy + ARS 
} 
for BP 神经 网 络 中 的 各 阅 值 0; // 更 新 闻 值 
{ 
A9; = q* ERR, 
8, - 6, + A6; 


) 
n) 


BP 神经 网 络 分 类 算法 的 流程 如 图 7.4 所 示 。 其 学 习 过 程 分 为 正 向 传播 输入 和 反 向 传 
播 误 差 。 样 本 从 输入 层 经 隐 层 再 到 输出 层 , 逐 层 处 理 时 各 层 神经 元 状态 只 对 下 一 层 神 经 元 
的 状态 产生 影响 。 在 输出 层 , 实 际 输出 和 期 望 输出 不 一 致 时 ,进入 反 向 传播 过 程 ,即将 误差 
反 向 传播 ,并 通过 更 新 权 值 和 阔 值 调整 ,使 误差 趋向 最 小 。 
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原理 及 应 用 


开始 


设置 各 权 值 和 
阔 值 的 初始 值 


给 定 输入 和 期 望 
输出 


计算 权 值 梯度 


— — 
调整 权 值 


7.4 BP 算法 流程 图 


7.2 决策 树 


决策 树 (decision tree) 是 分 类 预测 的 主要 方法 ,采用 基于 实例 的 归纳 学 习 算 法 , 旨 在 从 
一 组 无 次 序 .无 规则 的 实例 中 推理 出 决策 树 形式 的 分 类 规则 ,采用 自 项 向 下 的 递归 方式 ,在 
决策 树 的 内 部 结 点 进行 属性 值 的 比较 并 根据 不 同属 性 判断 从 该 结 点 向 下 的 分 支 , 在 决策 树 
的 叶 结 点 得 到 结论 ,所 以 从 根 到 叶 结 点 对 应 一 条 合 取 规 则 , 整 棵 树 对 应 一 组 析 取 规 则 。 

决策 树 分 类 是 利用 属性 值 对 各 子 集 逐 级 划分 ,直到 一 个 结 点 仅 含有 同一 类 样本 为 止 。 
决策 树 最 早起 源 于 Hunt 等 人 提出 的 概念 学 习 系 统 (Concept Learning System, CLS) ,然后 
发 展 到 Quinlan 的 ID3 算法 ,最 后 演化 为 能 处 理 连 续 值 属性 的 C4. 5 算法 。 

1. 主要 算法 

下 面 介绍 三 种 主要 的 决策 树 算法 。 

D CLS 

以 一 棵 空 决策 树 开始 ,通过 增加 结 点 逐步 求 精 , 直 到 产生 一 棵 能 正确 分 类 训练 样本 的 决 
策 树 为 止 , 是 一 个 循环 递归 过 程 。 假 设 T 为 已 知 的 训练 集 , 则 : 


CD 如 果 工 的 所 有 样本 均 为 正 例 , 则 生成 一 个 YES 结 点 并 终止 ; 如 果 工 的 所 有 样本 均 
为 反例 , 则 生成 一 个 NO 结 点 并 终止 ; 否则 ,根据 某 种 启发 式 策略 选择 一 个 属性 A, 设 A 取 
TEX vi ve meo, EIER 

(2) 将 根据 其 属性 A 的 取 值 进行 划分 ,生成 7 个 子 集 , 记 为 Ti,T,,…,T,。 

(3) 递归 地 应 用 该 算法 到 每 个 子 集 T;。 

CLS 中 ,分 类 属性 的 选择 决定 了 算法 的 效率 与 所 生成 决策 树 的 繁 简 程 度 和 预测 效果 。 
属性 选择 是 决策 树 算法 的 关键 。 

CLS 可 以 产生 所 有 可 能 的 决策 树 ,正确 分 类 训练 实例 ,并 能 选择 最 简单 的 决策 树 。 但 
是 属性 选择 范围 在 实际 应 用 中 往往 受到 问题 大 小 的 限制 。 

2) ID3 

Quinlan 提出 著名 的 ID3 学 习 算 法 ,是 对 CLS 的 改进 ,通过 选择 窗口 形成 决策 树 , 利 用 
信息 论 中 的 互信 息 Cmutual information) 或 信息 增益 (information gain) 选 择 具有 最 大 信息 
量 的 属性 ,建立 决策 树 的 一 个 结 点 ,再 根据 该 属性 的 不 同 取 值 建立 树 的 分 支 , 在 每 个 分 支 中 
重复 建立 树 的 下 层 结 点 和 分 支 ,效果 非常 理想 。 其 优点 是 描述 简单 ,分 类 速度 快 ,特别 适合 
大 规模 数据 集 。 但 算法 引入 信息 论 中 的 互信 息 作为 单一 属性 能 力 的 度量 ,试图 减少 树 的 平 
均 深 度 ,忽略 了 叶子 数目 的 研究 ,其 启发 式 函 数 并 不 是 最 优 的 ,存在 的 主要 问题 是 : 

(1) 互信 息 的 计算 依赖 于 取 值 数目 较 多 的 属性 ,而 取 值 较 多 的 属性 不 一 定 最 优 。 

(2) ID3 是 非 递增 式 学 习 算 法 。 

(3) 抗 品 能 力 差 , 训 练 集 中 正 例 和 反例 较 难 控制 。 改 进 算法 包括 C4. 5 以 及 CART( 引 
进 可 调 错误 率 -adjusted error rate 概念 ) 等 。 

下 面 给 出 ID3 算法 的 一 个 实例 。 例 如 根据 天 气 状 况 预 测 某 天 是 否 适 合 打 高 尔 夫 球 , 适 
合 的 属于 正 例 记 为 p, 不 适合 的 属于 反例 记 为 n。 天 气 由 四 种 属性 描述 , 即 Outlook 取 值 分 
别 为 sunny、overcast 和 rain; Temperature 取 值 分 别 为 cool, mild 和 hot; Humidity 取 值 为 
normal 和 high; Windy 取 值 为 false 和 true。 训 练 集中 共有 14 个 样本 ,如 表 7.1 所 示 。 


表 7.1 打 高 尔 夫 球 天 气 形 势 的 训练 集 


序号 Outlook Temperature Humidity Windy Class 
1 sunny hot high false N 
2 sunny hot high true N 
3 Overcast hot high false P 
4 rain wind high false P 
5 rain cool normal false P 
6 rain cool normal true N 
7 overcast cool normal true F 
8 sunny mild high false N 
9 sunny cool normal false P 
10 rain mild normal false P 
11 sunny mild normal true P 
12 overcast mild high true P 
13 Overcast hot normal false E 
14 rain mild high true N 
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Hi 7.1 可 知 p—9.n—5. Wu 


ICp.n) 2log 2 


5 5 
14 这 logz 0. 940 


14 


ECoutlook).= ilo d. uos DE ios s 


5 4 5 
110» 十 ule o 十 1102 


= Š xosnadxordxoon 
= 0. 694 
Gain(Outlook) = I(p.n)— ECoutlook) = 0. 940 — 0. 694 = 0. 246 
类 似 地 ,可 得 ， 
Gain(Temperature) — 0.029 
GainC Humidity) = 0. 151 
Gain( Windy) = 0.048 
显然 Outlook 的 信息 增益 最 大 ,因此 Outlook 被 选 为 根 结 点 并 向 下 扩展 ,以 此 类 推 , 得 
到 相应 的 ID3 决策 树 , 如 图 7.5 所 示 。 


7.5 打 高 尔 夫 球 的 ID3 决策 树 


3) C4.5 

ID3 有 很 多 改进 算法 ,其 中 Quinlan 在 1994 年 开发 的 C4. 5 流行 最 广 。C4. 5 的 改进 主 
要 体现 在 两 个 方面 : 

(1) 解决 连续 取 值 的 学 习 问 题 。 

(2) 提供 学 习 结果 决策 树 到 等 价 规则 集 的 转换 功能 。 

C4. 5 属于 一 种 归纳 学 习 (inductive learning) 算 法 , 旨 在 从 大 量 的 训练 样本 中 归纳 抽取 
一 般 的 判定 规则 和 模式 ,是 机 器 学 习 (machine learning) 和 领域 最 成 熟 的 分 支 之 一 。 根 据 有 无 
监督 指导 ,归纳 学 习 又 分 为 有 监督 学 习 (supervised learning) 和 无 监督 学 习 (unsupervised 
learning)。 有 监督 学 习 可 分 为 覆盖 算法 (covering algorithm) 和 分 治 算法 (divide-and- 
conquer algorithm) ,前 者 归纳 生成 规则 ,后 者 归纳 生成 决策 树 。C4. 5 属于 有 监督 的 学 习 
算法 。 

4) SLIQ 算法 

构造 决策 树 时 ,SLIQ 采用 预 排 序 和 广度 优先 策略 。 在 一 般 决策 树 中 ,使 用 信息 增益 评价 
结 点 分 裂 的 质量 。SLIQ 使 用 Gini 指标 (Gini index) 代 替 信 息 增益 ,对 及 个 分 类 的 数据 集 
S,gini(S) 定 义 为 : 


gini(S) = 1— Jp; * p (11) 

其 中 ,p; 是 S 中 第 j 类 数据 的 频率 。gini 越 小 ,信息 增益 越 大 。 

区 别 于 一 般 的 决策 树 ,SLIQ 采用 二 分 查找 树 结构 。 对 每 个 结 点 都 需要 先 计算 最 佳 分 
UE ,然后 执行 分 裂 。 对 于 连续 值 属性 (numerical attribute) 分 裂 可 以 先 对 属性 值 排序 ， 
假设 排序 后 的 结果 为 Vi ,V。,…,V, ,因为 分 裂 只 发 生 在 两 个 结 点 之 间 , 所 以 及 n 一 1 种 可 能 
性 。 从 小 到 大 依次 取 不 同 的 分 裂 点 ,通常 取 中 点 (Vi 十 Vi+1)/2 作为 分 裂 点 ,使 信息 增益 最 
大 ( 即 gini 最 小 ) 的 即 最 佳 分 裂 。 因 为 每 个 结 点 都 需要 排序 ,所 以 代价 很 大 ,降低 排序 成 本 
是 一 个 重要 的 问题 , SLIQ 对 此 有 很 好 的 解决 方案 。 对 于 离散 值 属 性 (categorical 
attribute) , 设 S(A) 为 A 的 所 有 可 能 的 值 , 属 性 分 裂 将 遍 取 S 的 所 有 子 集 S ,获得 分 裂 成 S' 
和 S-S“ 时 的 gini 指标 。 当 gini 最 小 时 , 即 最 佳 分 裂 。 显 然 , 这 是 一 个 遍历 集合 S 所 有 子 集 
的 过 程 , 共 需要 计算 2 次 ,代价 很 大 。SLIQ 对 此 也 有 一 定 程 度 的 优化 。 

SLIQ 的 处 理 能 力 比 ID3 和 C4. 5 大 得 多 ,因此 在 一 定 程 度 上 具有 和 良好 的 可 扩展 性 ,但 
仍 存在 不 足 之 处 ,主要 体现 在 : 

(1) 需要 将 类 别 列表 存放 于 内 存 , 而 类 别 列表 的 长 度 与 训练 集 的 长 度 相 同 , 这 在 一 定 程 
度 上 限制 了 处 理 数据 集 的 大 小 。 

(2) 预 排序 的 复杂 度 本 身 并 不 是 与 样本 数量 成 线性 关系 ,因此 SLIQ 不 可 能 达到 随 样 
本 数 增长 的 线性 可 扩展 性 。 

2. 算法 描述 

ID3 算法 的 基本 思路 是 首先 在 数据 集中 采用 信息 增益 作为 属性 选择 的 标准 , 找 出 最 有 
影响 力 的 属性 ,将 数据 集 分 成 多 个 子 集 ,每 个 子 集 又 选择 最 具 影响 力 的 属性 进行 划分 ,一 直 
进行 到 所 有 子 集 仅 包含 同一 类 型 的 样本 为 止 ,最 后 得 到 一 棵 决策 树 。 决 策 树 的 构造 采用 自 
上 而 下 ,分 而 治之 的 递归 方式 。 初 始 时 , 根 结 点 包含 数据 集中 的 所 有 样本 。 若 一 个 结 点 包含 
的 样本 均 为 同一 类 别 , 则 该 结 点 成 为 叶 结 点 并 标记 为 该 类 别 ; 否则 ,采用 信息 增益 的 度量 选 
择 合适 的 分 类 属性 ,将 数据 集 划分 为 若干 个 子 集 。 该 属性 称 为 相应 结 点 的 测试 属性 (test 
attribute) 。 对 测试 属性 的 每 个 已 知 值 都 创建 一 个 分 支 ,同时 也 包含 一 个 被 划分 的 子 集 。 递 
归 地 对 所 获得 的 每 个 划分 形成 一 棵 决策 子 树 。 一 旦 一 个 属性 出 现在 某 个 结 点 上 , 则 不 能 再 
出 现在 该 结 点 之 后 所 产生 的 子 树 结 点 上 。 当 一 个 结 点 包含 的 所 有 样本 均 为 同一 类 别 或 没有 
样本 满足 测试 属性 值 , 则 算法 终止 。 

基于 信息 增益 选择 测试 属性 的 方法 ,使 得 对 一 个 对 象 分 类 所 需 的 期 望 测试 数 达到 最 小 ， 
确保 得 到 一 棵 简单 的 树 。 在 该 方法 中 选择 具有 最 高 信息 增益 的 属性 作为 当前 结 点 的 测试 属 
性 ,该 属性 使 得 数据 样本 分 类 所 需 的 信息 量 最 小 ,并 反映 划分 的 最 小 随机 性 或 “不 纯 性 ”"。 属 
性 信息 增益 的 计算 方法 如 下 : 

设 数据 集 SC s 个 样本 ,类 别 属性 有 mi 个 不 同 的 取 值 ,定义 m 个 不 同 的 类 Ci,i€ {1,2， 
3,…,m})。 设 s; HZI C: 的 样本 个 数 , 则 对 一 个 数据 集 分 类 所 需要 的 期 望 信息 为 : 


IGsy ss) —— X) py loge ps? (7.12) 
i=l 


其 中 p; 是 任意 一 个 样本 属于 类 别 C; 的 概率 ,可 以 按 si/S 计算 。 因 为 采用 二 进 制 编码 ， 
所 以 对 数 函 数 以 2 为 底 。 
设 属性 A 可 取 wv 个 不 同 的 值 {a1 ,as，,…,a,}。 可 以 用 属性 A YES 划分 为 v T TEC. 
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Ss，,…,S,), 其 中 S; 包含 S 中 属性 A 中 取 值 w 为 1 的 样本 。 若 属性 A 为 测试 属性 , 设 5; 为 
子 集 S; 中 属于 C; 类 别 的 样本 数 。 则 利用 属性 A 划分 当前 集合 所 需要 的 期 望 信息 计算 
如 下 : 


EA) = J) uds -一 Lr RE (1.13) 
i=l 


Syts 


yp iai HS Rog d je THU BUR EOR, 6x T He 2 ARE 


5, 


好 。 而 对 于 一 个 给 定子 集 S ,其 期 望 信息 如 式 (7. 12) 所 示 , 其 中 ps TT 为 子 集 Si 中 任 一 


IS; 
个 样本 属于 类 别 C; 的 概率 。 
由 此 利用 属性 A 对 当前 分 支 结 点 进行 划分 所 获得 的 信息 增益 是 : 
GainCA) = IGi; «52; s**t sSmj) — E(A) (7.14) 
Gain(A) 是 根据 属性 A HEITE E Yl 4) FI e 3 AS fr A AIR 7I fit o 
ID3 计算 每 个 属性 的 信息 增益 ,从 中 选择 信息 增益 最 大 的 属性 作为 给 定 集合 的 测试 属 
性 并 由 此 产生 相应 的 分 支 结 点 ,所 产生 的 结 点 被 标记 为 相应 的 属性 ,并 根据 这 一 属性 的 不 同 
取 值 分 别 产生 相应 的 决策 树 分 支 , 每 个 分 支 代表 一 个 被 划分 的 子 集 。 
ID3 算法 简单 ,学 习 能 力 较 强 , 但 仅 对 较 小 的 数据 集 有 效 , 且 对 噪声 比较 敏感 , 当 数 据 集 
增 大 时 ,决策 树 可 能 会 改变 。C4. 5 继承 了 ID3 的 优点 ,同时 对 ID3 进行 了 改进 ,例如 能 够 完 
成 对 连续 属性 的 离散 化 处 理 , 能 够 对 不 完整 数据 进行 处 理 等 。 
决策 树 的 生成 分 为 两 个 步骤 ， 
1) 数据 从 根 结 点 开始 递归 的 进行 数据 分 片 
下 面 以 C4. 5 为 例 说 明 决 策 树 生成 算法 。 
Procedure C4. 5BuildTree (S, A) 
(S: 训练 样本 集 , A: 分 类 属性 集合 ) 
if 属性 是 连续 的 则 进行 离散 化 处 理 
if 所 有 样本 属于 同一 分 类 ,返回 标号 为 该 分 类 的 叶 结 点 
else if ”属性 值 为 空 ,返回 标号 为 最 普遍 分 类 的 叶 结 点 
else( 
For 每 一 个 属性 A 
估计 该 结 点 在 A 上 的 信息 增益 选 出 最 佳 的 属性 A, S 分 裂 为 Si 长 出 分 支 
(Si 为 属性 Aj 的 第 i 个 值 对 应 的 样本 集 ) 
For each Si 
if Si 为 空 then 返回 叶 结 点 ,标记 为 $ 中 最 普遍 的 类 
else C4.5BuildTree (Si,A - Aj) 
) 


2) 通过 修剪 去 掉 一 些 可 能 是 噪声 或 者 异常 的 数据 

决策 树 分 类 算法 的 输入 是 一 组 带 有 类 别 标记 的 训练 样本 ,输出 是 一 棵 二 又 或 多 又 树 。 
二 又 树 的 内 部 结 点 ( 非 叶子 结 点 ) 一 般 表示 为 一 个 逻辑 判断 ,例如 形 如 a; — 的 逻辑 判断 ， 
其 中 a; 是 属性 ,w 是 该 属性 的 某 一 取 值 ; 树 的 边 是 逻辑 判断 的 分 支 结果 。 多 又 树 ( 如 ID3) 
的 内 部 结 点 是 属性 , 边 是 该 属性 的 所 有 取 值 , 有 几 个 属性 值 , 就 有 几 条 边 。 树 的 叶 结 点 均 为 
类 别 标记 。 决 策 树 的 构造 采用 自 上 而 下 的 递归 方法 。 以 多 又 树 为 例 ,构造 过 程 是 如 果 训 练 


样本 集合 的 所 有 样本 是 相同 类 别 的 , 则 将 之 作为 叶 结 点 , 结 点 标记 为 该 类 别 。 否 则 ,根据 某 
种 策略 选择 一 个 属性 ,按照 属性 的 各 个 取 值 ,把 集合 划分 为 若干 子 集 , 使 得 每 个 子 集 的 所 有 
样本 在 该 属性 上 具有 同样 的 属性 值 。 然 后 再 依次 递归 处 理 各 个 子 集 。 本 质 上 是 “分 而 治之 ” 
(divide and conquer)。 二 叉 树 同 理 , 差 别 仅 在 于 要 选择 一 个 好 的 逻辑 判断 。 构 造 决 策 树 的 
关键 是 如 何 选择 恰当 的 逻辑 判断 或 属性 。 对 于 同一 组 样本 ,可 以 有 很 多 决策 树 能 符合 这 组 
例子 。 研 究 表明 ,一 般 情况 下 , 树 越 小 则 预测 能 力 越 强 , 应 构造 尽 可 能 小 的 决策 树 。 由 于 构 
造 最 小 的 树 是 NP 问题 ,因此 只 能 采用 启发 式 策略 选择 逻辑 判断 或 属性 ,如 信息 增益 、 信 息 
增益 比 (gain ratio) ,gini index 和 正 交 法 等 ,不 同 的 度量 效果 不 同 , 特 别 是 对 于 多 值 的 属性 。 
C4.5 算法 使 用 信息 增益 作为 启发 策略 构造 决策 树 。 

在 实际 中 ,用 于 分 类 模型 学 习 训练 的 样本 往往 是 不 完美 的 ,原因 在 于 : 

。 某 些 属性 字段 缺 值 (missing value? 

* 缺少 必需 的 数据 而 造成 数据 不 完整 

。 数据 不 准确 含有 噪声 甚至 是 错误 的 

因此 ,需要 克服 噪声 和 决策 树 剪 枝 。 

剪 枝 旨 在 克服 噪声 ,同时 也 能 简化 树 使 之 更 易于 理解 。 剪 枝 类 型 主要 包括 

CD 向 前 剪 枝 (forward pruning) 在 生成 树 的 同时 决定 是 继续 对 不 纯 的 训练 子 集 进行 划 
分 还 是 停机 。 

(2) 向 后 剪 枝 (backward pruning) 是 一 种 两 阶段 法 , 即 拟 合 -化 简 (fitting and simplifying)， 
首先 生成 与 训练 样本 完全 拟 合 的 一 棵 决策 树 ,然后 从 树 的 叶子 开始 剪 枝 ,逐步 向 根 的 方 
向 剪 。 

但 是 , 剪 枝 也 存在 一 定局 限 性 。 剪 枝 并 不 是 对 所 有 的 数据 集 都 适用 ,正如 最 小 的 树 并 不 
是 最 好 (具有 最 大 的 预测 率 ) 的 树 。 当 数据 稀 朴 时 ,应 防止 过 分 剪 枝 (overpruning)。 从 某 种 
意义 而 言 , 剪 枝 也 是 一 种 偏向 ,对 有 些 数据 集 效 果 好 而 有 些 则 效果 较 差 。 


7.3 实现 过 程 


分 类 的 实现 过 程 一 般 分 为 两 个 步骤 。 

1. 通过 训练 集 建立 分 类 模型 ( 即 建 模 ) 

建 模 一 般 分 为 训练 和 测试 两 个 阶段 。 建 模 之 前 ,要 求 将 数据 集 划 分 为 训练 集 和 测试 集 ， 
并 对 每 个 样本 进行 类 别 标记 , 即 预 设 分 类 类 别 。 训 练 阶段 ,通过 分 析 由 属性 描述 的 训练 样本 
构造 模型 。 该 阶段 也 称 为 有 指导 的 学 习 , 通 常 模型 为 分 类 规则 、 判 定 树 或 数学 公式 的 形式 ; 
测试 阶段 ,使 用 测试 集 评估 模型 分 类 的 准确 率 , 如 果 认 为 模型 的 准确 率 可 以 接受 , 则 使 用 该 
模型 对 类 别 未 知 的 待 分 类 样本 进行 分 类 。 一 般 而 言 ,测试 阶段 的 代价 远 低 于 训练 阶段 。 

为 了 提高 分 类 的 准确 性 ` 有 效 性 和 伸缩 性 , 建 模 前 ,通常 需要 预 处 理 ,具体 包括 : 

CD 数据 清理 。 其 目的 是 消除 或 减少 噪声 ,处 理 缺 失 值 。 

(2) 相关 性 分 析 。 由 于 数据 集 的 许多 属性 可 能 与 分 类 不 相关 , 若 包 含 这 些 属性 将 减 慢 
或 可 能 误导 学 习 过 程 。 相 关 性 分 析 的 目的 是 删除 不 相关 或 元 余 的 属性 。 

O 数据 变换 。 数 据 可 以 抽象 到 较 高 层次 。 例 如 ,属性 “收入 ”的 连续 值 可 以 抽象 为 离 
散 值 , 如 低 、 中 和 高 。 此 外 ,还 可 以 规范 化 ,即将 属性 值 按 比 例 缩放 落 入 较 小 的 区 间 ， 
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如 [0,1]。 
构建 分 类 模型 的 过 程 如 图 7.6 所 示 。 


mo 分 类 算法 


姓名 [ 职称 [任职 时 间 | 终身 | 
Mike | 讲师 3 8 | 
Mary | 讲师 7 是 | 
Bil | 教授 2 是 | 
Jim | 副教授 | 7 是 | TF (职称 = 教授 
Dave | 讲师 c 8 | OR 任 职 时 间 >6) 
Anne 副 教授 3 E | THEN 终 身 = 是 


图 7.6 构建 分 类 模型 的 过 程 


2. 利用 已 训练 好 的 分 类 模型 识别 类 型 未 知 的 对 象 (即使 用 模型 ) 
测试 集 与 训练 集 互相 分 离 ,否则 将 出 现 过 度 拟 合 (overfitting) 现 象 。 使 用 分 类 模型 的 过 
程 如 图 7.7 Br. 


分 类 /预测 结果 : 
是 终身 教授 


待 测 样本 
T 


姓名 | 职称 _| 任 职 时 间 | 终身 

Tom 讲师 2 E 
Merlisa| 副教授 7 ES 
George| 教授 5 是 
Joseph | 讲师 7 是 


7.7 使 用 分 类 模型 的 过 程 
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第 8 章 关联 分 析 


8.1 概述 


自然 界 中 某 一 事物 发 生 时 其 他 事物 也 会 发 生 , 这 种 联系 称 之 为 关联 。 反 映 事件 之 间 依 
赖 或 关联 的 知识 称 为 关联 型 知识 (又 称 依赖 关系 )。 关 联 是 指 两 个 或 多 个 变量 取 值 之 间 存 在 
的 某 种 重要 的 可 被 发 现 的 规律 性 ,分 为 简单 关联 ,时序 关 联 和 因果 关联 等 。 

以 交易 型 数据 库 为 例 ,一 个 交易 一 般 由 交易 处 理 时 间 ,一 组 顾客 购买 的 物品 ,有 时 也 包 
括 顾 客 标识 (如 信用 卡号 ) 等 组 成 。 关 联 规则 可 描述 在 一 次 交易 中 物品 之 间 同 时 出 现 的 规 
律 。 更 确切 地 说 ,关联 规则 量化 地 描述 了 物品 X 出 现 对 物品 Y 出 现 有 多 大 的 影响 。 

例如 ,体育 用 品 商 店 通过 对 销售 数据 的 关联 分 析 发 现 这 些 数据 中 常常 隐 含 这 样 的 规律 ， 
即 “ 购 买 篮球 的 顾客 中 有 70% 的 人 同时 购买 篮球 运动 服 ,所 有 交易 中 有 40% 的 人 同时 购买 
篮球 和 篮球 运动 服 ” 等 ,这 些 规律 即 关 联 规则 。 

另 一 个 典型 例子 是 购物 篮 的 分 析 。 通 过 发 现 顾客 放 入 其 购物 篮 中 不 同 商品 之 间 的 联 
系 ,进一步 分 析 顾 客 的 购买 习惯 ,帮助 零售 商 制 定 针 对 性 的 营销 策略 ,如 合理 地 安排 货架 以 
引导 销售 ,将 牛奶 和 面包 尽 可 能 放 近 一 些 ,以 刺激 一 次 购物 同时 购买 多 种 商品 。 

频繁 项 集 (frequent itemset) 是 产生 关联 规则 的 基础 ,因此 在 定义 关联 规则 之 前 首先 介 
绍 频 繁 项 集 的 定义 及 其 性 质 。 

定义 8.1 设 I 为 一 个 由 m 个 项 组 成 的 集合 I 三 (i,is，… ,in) 称 为 项 集 (itemset)。 

交易 工 是 由 工 中 的 项 组 成 的 子 集 , 即 TCI. 与 集合 的 定义 一 样 ,交易 工 中 同样 不 存在 
重复 的 元 素 。 假 设 这 里 所 涉及 的 交易 和 项 集 的 项 都 已 排序 。 

如 果 交 易 工 包含 项 集 X 中 的 所 有 项 , 即 XCT, 则 称 工 支持 和。T(CX) 定 义 为 所 有 支持 
X 的 交易 组 成 的 集合 。 

定义 8.2 数据 库 D 中 支持 项 集 X 的 交易 所 占 的 比例 称 为 X 在 D 中 的 支持 度 , 记 为 
supp(X) 或 SC, 

iE minsup 为 给 定 的 最 小 支持 度 ,如 果 supp(X) 三 minsup, 则 称 项 集 X 是 频繁 的 。 一 个 
项 集 的 最 小 支持 度 是 该 项 集 被 认为 是 有 意义 的 ,支持 它 的 交易 占 数据 库 D 中 所 有 交易 总 和 
的 最 小 比例 ,通常 是 根据 经 验 设 定 , 不 具有 最 小 支持 度 的 项 集 被 认为 是 没有 意义 的 。 

定义 8.3 项 集 包含 项 的 个 数 称 为 长 度 或 基数 。 长 度 为 的 项 集 称 为 A(A= | EX 1 HE 
集 , 记 为 k-itemset。 

频繁 项 集 具 有 以 下 三 种 性 质 ,其 中 性 质 8. 1 和 性 质 8. 3 是 所 有 分 析 规 则 算法 的 基础 。 

性 质 8.1: 子 集 支 持 

设 A 和 B 是 两 个 不 同 的 项 集 ,如 果 ACB. 则 supp(A) 宇 supp(B)。 因 为 所 有 支持 B 的 
交易 也 一 定 支持 A。 

TEE: 8.2: 非 频 繁 项 集 的 超 集 也 一 定 是 非 频繁 的 

如 果 A 满足 最 小 支持 度 条 件 , 即 supp(A) 志 minsup, 则 A 的 每 个 超 集 B 也 不 是 频繁 
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的 。 由 性 质 S. 1 可 得 supp( B) suppCA) Sminsup. HE B 也 是 非 频繁 的 。 

TEES 8.3: 频繁 项 集 的 子 集 也 是 频繁 的 。 

如 果 项 集 B 是 数据 库 D 中 的 频繁 项 集 , 即 supp B) minsup. W B 的 每 个 子 集 A 也 是 
频繁 的 。 由 性 质 8. 1 可 得 supp(A) 宇 supp(B) 宇 minsup, 因 此 A 也 是 频繁 的 。 特 别 地 ,如 果 
A 是 频繁 的 , 则 其 上 个 基数 为 & 一 1 的 子 集 都 是 频繁 的 ; 反之 则 不 成 立 。 

设 I 二 {i ,is，…,in) 是 有 mm 个 不 同 元 素 的 集合 ,TT 是 针对 了 的 交易 集合 ,每 一 笔 交易 包 
含 若干 个 属于 了 的 项 。 关联 规则 表示 为 X=>Y, 其 中 XX 和 YY 是 两 个 不 相交 的 集合 ,X,YCI 
JFH X nY- 9. X 称 为 规则 的 前 提 或 前 项 ,Y 称 为 规则 的 结果 或 后 项 。 每 个 规则 都 有 两 
个 度量 , 即 支持 度 (support) 和 可 信和 度 (confidence)。 其 中 ， 

。 支持 度 定义 为 support XY) —support XUY) 。 
。 可 信和 度 定义 为 confidence( XY) — support X UY) /supportCX) 。 
。 关 联 规则 的 形式 为 R: X=>Y。 

关联 规则 具有 以 下 四 种 性 质 。 

性 质 8.4: 规则 的 非 结 合 性 。 

如 果 关 联 规则 X-—Z MYSZ ED 中 成 立 , 规 则 XUY 一 Z 不 一 定 在 了 中 成 立 。 如 果 
XMyY= 包 ,并 且 了 中 支持 2 的 所 有 交易 都 只 支持 X 或 了 , 则 集合 XUYUZ 的 支持 度 为 0， 
因此 XUY-Zz 的 可 信 度 为 0。 

类 似 地 ,如 果 规 则 XY FXS 成 立 ,规则 X-YUZ 不 一 定 成 立 。 

TEES 8.5: 规则 的 不 可 分 解 性 。 

如 果 关 联 规则 XUY=>Z 在 D 中 成 立 , 规 则 X-z 和 Y=>2 不 一 定 在 D 中 成 立 。 例 如 ， 
MZ 只 出 现在 一 个 交易 时 ,如 果 X 和 了 也 出 现在 其 中 , 即 suppCX UY) —suppCZO ,规则 就 
是 不 可 分 解 的 。 另 外 ,如 果 XX 与 Y 的 支持 度 与 XY 的 支持 度 相 比 足够 大 ,就 会 使 得 分 解 后 
的 两 个 规则 不 具有 所 要 求 的 可 信和 度 , 因 此 规则 也 不 可 分 解 。 

因为 supp X UY)>supp( X UYUZ)H. supp(XUZ) 三 supp(XUYU2), 所 以 如 果 规 
W X-YUZ 成 立 , 则 规则 X-Y HA X>Z 都 成 立 。 由 此 可 得 较 小 规则 的 支持 度 与 可 信和 度 与 
原 规 则 相 比 都 有 所 增 大 。 

性 质 8.6: 规则 的 不 可 传递 性 。 

由 关联 规则 X=>Y H YSZ 成 立 不 能 推导 出 规则 XS 成 立 。 设 TOOCTODCTOD. 
最 小 可 信和 度 为 minconf .confC( XY) —conf(Y- Z) ^ minconf, 

由 TCOC TOO [f$ conf XY) 2 SCXUY)/SQ») 

=S(X)/S(Y)=minconf 

由 T(Y)CT(2Z) 可 得 conf(Y9Z2) 2 S(YU2//SOD 

=S(Y)/S(Z)=minconf 

由 T(X)= 二 T(2Z) 可 得 con{f(X 坟 2Z) 二 SCXUZ)/S(Z)==SCX)/S(Z) 

由 上 面 三 个 等 式 和 minconf 过 1, 可 得 conf X Z) — minconf 二 minconf。 因 此 规则 X> 
Z 不成立。 

性 质 8.7: 规则 的 可 扩展 性 。 

设 项 集 L、A 和 B, 上 且 BCACL, 如 果 规 则 A 志 >(L 一 A) 不 满足 最 小 可 信和 度 条 件 , 则 


B 汪 ( 工 一 B) 也 不 满足 最 小 可 信和 度 条 件 。 由 性 质 S. 1 可 得 supp(B) 之 supp(A) ,再 由 可 信 度 
的 定义 可 得 confCLB— (IL — B)) —^suppCG) /suppCB) CsuppCQ) / suppCA) minconf, 

同 理 可 得 ,对 项 集 L、D 8C. H. DCCCL.D-—0,. WRAL C) — C 成 立 , 则 规则 
(GL, —D)- D 也 成 立 。 

当 所 有 频繁 项 集 及 其 支持 度 确定 后 ,利用 性 质 8.7 可 以 加 速 规则 的 产生 。 

关联 分 析 和 旨 在 发 现 支持 度 或 可 信和 度 分 别 大 于 设 定 的 最 小 支持 度 值 和 最 小 可 信和 度 值 的 规 
则 。 本 质 上 ,关联 分 析 分 解 成 : 

(1) 产生 所 有 支持 度 大 于 或 等 于 设 定 最 小 支持 度 的 项 集 ,这 些 项 集 称 为 频繁 项 集 ,而 其 
他 的 项 集 则 称 为 非 频 繁 项 集 。 

(2) 对 于 每 个 频繁 项 集 ,产生 可 信 度 大 于 或 等 于 最 小 可 信和 度 的 规则 , 即 对 于 一 个 频繁 项 
Æ L 及 任意 SCL, 如 果 support(L)/Support(S) 宇 minconf, 则 规则 S CL — S) Sb f& — P 1E 
确 规则 。 

关联 分 析 的 主要 算法 包括 R. Agrawal 等 提出 的 AISCArtificial Immunity System, A T. 
免疫 系统 )、Apriori 及 其 变种 AprioriTid 和 AprioriHybrid; M. Houtsma 等 提出 的 SETM; 
J. Park 等 提出 的 DHP; A. Savasere 等 提出 的 PARTITION; H. Toivonen 提出 的 
Sampling 和 Jiawei Han 提出 的 FP-Growth 等 。 

AIS 算法 的 主要 思想 是 在 扫描 数据 库 的 同时 产生 候选 项 集 并 累计 支持 度 。 具 体 地 ,在 
对 数据 库 进 行 第 & 次 扫描 时 ,候选 项 集 是 由 第 e — 1 次 扫描 所 产生 的 边界 集 通过 增加 当前 事 
务 中 的 项 得 到 ,同时 计算 候选 项 集 元 素 的 支持 度 ,直到 某 次 扫描 所 产生 的 边界 集 为 空 。 其 主 
要 缺点 是 生成 的 候选 项 集 过 大 。 

SETM 算法 实际 上 是 AIS 算法 的 变种 ,把 候选 项 集 的 产生 和 累计 分 开 。 在 一 个 线性 存 
储 结构 中 存储 了 所 有 候选 项 集 和 相应 交易 的 标识 符 (CTID)。 每 次 扫描 结束 后 ,不 再 读 取 数 
据 库 ,而 是 对 TID 进行 排序 并 累计 各 个 候选 项 集 的 支持 度 。 其 主要 思想 是 通过 扫描 候选 项 
集 的 编码 代替 扫描 数据 库 ,实质 上 是 把 数据 库 中 与 支持 度 有 关 的 信息 单独 提取 出 来 ,构成 一 
个 较 小 但 充分 的 TID 库 ,这 大 大 减少 了 数据 库 的 访问 时 间 ,不 足 之 处 同样 是 候选 项 集 过 大 。 

Apriori 算法 利用 项 集 的 性 质 对 数据 库 进 行 多 次 扫描 , 即 任意 频繁 项 集 的 子 集 都 是 频繁 
项 集 ; 任意 非 频繁 项 集 的 超 集 都 是 非 频繁 项 集 。 第 一 次 扫描 数据 库 得 到 频繁 1 项 集 Li ,第 
& 次 扫描 前 先 利 用 上 次 扫描 结果 , 即 项 集 Le 产生 候选 的 & 项 集 的 集合 Ci ,然后 再 通过 扫 
描 数 据 库 确定 对 C 中 每 一 候选 & 项 集 的 支持 度 , 最 后 在 该 次 扫描 结束 时 得 到 频繁 & 项 集 
Li 算法 在 C, RL 为 空 时 终止 。Apriori 算法 产生 的 候选 项 集 比 AIS 算法 少 得 多 ,效率 较 
高 。Apriori 是 关联 分 析 的 经 典 算法 ,很 多 算法 都 是 其 变种 或 改进 。 

DHP 算法 利用 散 列 表 (Hash table) 产 生 候选 项 集 ,是 对 Apriori 算法 的 直接 改进 。 在 
遍历 一 次 数据 库 得 到 候选 项 集 的 支持 度 , 得 到 频繁 项 集 后 ,将 每 一 个 事务 的 可 能 的 
(R 十 1) 项 集 通过 哈 希 规则 形成 散 列 表 。 散 列表 的 每 一 栏 包括 所 有 通过 散 列 规则 映射 到 该 栏 
的 项 集 的 数目 。 根 据 结果 的 散 列表 ,可 以 生成 一 个 位 向 量 , 当 散 列 表 中 对 应 该 栏 的 值 大 于 或 
等 于 最 小 支持 度 时 ,对 应 的 位 置 为 1, 否则 为 0。 利用 该 向 量 可 以 过 滤 掉 下 一 次 生成 不 必要 
的 候选 项 集 , 即 如 果 某 候选 项 在 向 量 中 对 应 位 置 的 值 为 0, 则 舍弃 ,这 对 候选 2 项 集 的 产生 
尤为 有 效 , 可 以 在 第 二 次 扫描 时 就 大 大 减 小 候选 项 集 的 规模 。 在 某 些 场 合 ,DHP 的 效率 比 
Apriori 明显 提高 。 
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原理 及 应 用 


PARTITION 算法 主要 针对 大 型 数据 库 , 分 为 两 个 步骤 其 一 是 将 目标 数据 库 划分 为 ? 
个 互 不 相交 的 子 数据 库 Di Di D, ,每 个 D;(i 二 1,2,…,n) 都 存储 在 内 存 中 。 然 后 逐一 
把 D; 读 入 内 存 并 按 一 般 算法 发 现 频繁 项 集 L;; 再 把 所 有 的 L: 合并 为 数据 库 的 潜在 频繁 项 
集 ; 其 二 计算 潜在 频繁 项 集 在 数据 库 中 的 支持 度 , 得 到 频繁 项 集 工 。 

Sampling 算法 的 主要 思想 是 对 数据 库 D 进行 随机 抽样 得 到 抽样 数据 库 D' , 先 以 小 于 
指定 的 最 小 支持 度 找到 D' 的 频繁 项 集 L', 再 在 剩余 数据 集 D 一 D' 中 继续 计算 工 中 各 元 素 
的 支持 度 , 最 后 再 以 最 小 支持 度 求 出 上。 对 于 大 部 分 情况 可 以 得 到 所 有 的 频繁 项 集 , 但 有 时 
会 漏 掉 一 些 。 可 以 对 数据 库 进行 二 次 扫描 得 到 漏 掉 的 频繁 项 集 。 多 数 情 况 下 ,此 算法 只 需 
对 数据 库 扫 描 一 次 ,最 坏 也 只 需 扫描 两 次 。 

FP-Growth 算法 主要 是 采用 一 种 新 的 数据 结构 FP-tree, 克 服 Apriori 算法 产生 候选 项 
集 的 缺点 。 该 算法 只 扫描 数据 库 两 次 ,并 且 不 用 产生 候选 项 集 ,提高 了 效率 。 

下 面 着 重 介 绍 Apriori 和 FP-Growth 两 种 算法 。 


8.2 Apriori 


R. Agrawal 等 在 1994 年 提出 了 著名 的 Apriori 算法 , 它 是 一 种 最 有 影响 的 挖掘 布尔 关 
联 规则 频繁 项 集 的 算法 ,得 名 于 算法 使 用 了 频繁 项 集 性 质 的 先 验 知识 。 

Apriori 包含 由 候选 项 集 (candidate itemset) 产 生 频 繁 项 集 (frequent itemset) ,由 频繁 
项 集 产 生 强 关联 规则 (strong association rule) 两 个 步骤 。 

Apriori 使 用 逐 层 搜索 的 迭代 方法 ,通过 对 数据 库 的 多 次 扫描 发 现 所 有 的 频繁 项 集 。 在 
每 一 次 扫描 中 只 考虑 具有 同一 长 度 &( 即 项 集中 所 含 项 的 个 数 ) 的 所 有 项 集 。 算 法 的 第 一 次 
扫描 仅仅 计算 每 个 项 具体 值 的 数量 ,确定 长 度 为 1 的 频繁 项 集 。 在 后 继 的 每 次 扫描 中 ,首先 
使 用 前 一 次 扫描 中 找到 的 频繁 项 集 Li- 和 Apriori-gen 函数 产生 候选 项 集 g, 接 着 扫描 数据 
库 , 计 算 C, 中 候选 项 集 的 支持 度 , 最 后 确定 哪些 候选 项 集成 为 真正 的 频繁 项 集 。 重复 上 述 
过 程 直 到 再 没有 新 的 频繁 项 集 出 现 。 

Apriori 算法 中 ,使 用 逐 层 迭 代 找 出 频繁 项 集 的 过 程 描述 如 下 : 


输入 : 事务 数据 库 D, 最 小 支持 度 阔 值 

输出 :D 中 的 频繁 项 集 工 

1 Begin 

2 L1l= (large l- itemset); /* 生 成 含有 1 项 的 频繁 集 * / 
3 For (k=2; Ik- 1:0; k++) Do 

4 Begin 

5 Ck = apriori- gen(Lk- 1); 

6 For all transition t€ D Do 

E Begin 

8 Ct - subset (Ck, t); /* 产生 事务 t 中 包含 的 k 项 集 Ct*/ 
9 For all Candidate c€ Ct Do 

10 c.count ++ ; /< 计数 <*/ 

11 End; 

12 Lk= (c €Ck | c.count Zmin sup) 

13 End; 

14 Answer = Lk; 

15 End 


产生 候选 项 集 的 过 程 描述 如 下 : 
假定 Ex-: 中 各 项 按 某 一 次 序 排列 ,候选 项 集 的 产生 由 以 下 两 个 步骤 组 合 而 成 , 即 : 
连接 步骤 : Apriori- gen(Ik-1) 的 连接 
Begin 
insert into Ck 
select p.iteml, p. item2, -,p.itemk- 1, q.itemk- 1 
from Lk- 1,p, Lk 1,q 
where p. iteml = q. iteml, p.item2 = q. item2 , -,p. itemk- 2 = q. itemk - 2, p. itemk - 1 < 
q. itemk- 1; 
End; 
剪 枝 步 骤 : Apriori- gen 的 剪 枝 
For all itemsets c€ Ck Do 
For all (k- 1) - subsets s of c Do 
if (s 不 属于 Lk - 1) then 
delete c from Ck; 
Apriori 首先 产生 频繁 1 项 集 Li ,然后 是 频繁 2 项 集 Lo. HIAR rE L, 为 空 
则 算法 停止 。 其 中 第 次 循环 中 ,首先 产生 候选 上 项 集 的 集合 Ci,C 中 的 每 一 个 项 集 是 对 
两 个 只 有 一 项 不 同 的 属于 二 二: 的 频繁 项 集 做 一 个 (k 一 2) 连 接 产生 的 。L; 中 的 项 集 是 用 来 
产生 频繁 项 集 的 候选 项 集 , 最 后 的 频繁 项 集 Le 必须 是 Ci 的 一 个 子 集 。C 中 的 每 个 元 素 需 
在 交易 数据 库 中 进行 验证 决定 其 是 否 加 入 L, 这 里 的 验证 过 程 是 算法 性 能 的 一 个 瓶 开 。 这 
一 方法 要 求 多 次 扫描 可 能 很 大 的 交易 数据 库 。Apriori-gen 的 剪 枝 算法 用 来 删除 候选 La 中 
项 集 的 子 集 不 是 频繁 项 集 的 集合 。 
对 于 具有 一 定 规 模 的 事务 数据 库 而 言 ,其 蕴含 的 候选 项 集 数量 特别 巨大 ,同时 一 个 事务 
内 部 也 可 能 蕴含 许多 的 候选 项 集 ,这 些 成 为 制约 Apriori 算法 性 能 的 主要 因素 。 
下 面 通过 一 个 实例 说 明 Apriori 算法 的 实现 过 程 。 
CD 设 一 个 小 型 的 交易 数据 库 D, 如 表 8. 1 所 示 , 设 定 最 小 支持 度 国 值 为 2。 
(2) 扫描 数据 库 DD, 对 每 个 候选 项 计数 生成 C ,如 表 8.2 所 示 。 


表 8.1 交易 数据 库 卫 X*8.2 € 
交易 号 项 集 合 项 集 支持 度 计数 
T1 11,12,15 an 6 
T2 12,14 {12} 4 
T3 12,13 {13} 6 
T4 11,12,14 {14} 2 
T5 I13 (5) 2 

T6 12,13 

T i.n 

T8 I1,12,13,15 
T9 11,12,13 


(3) KRR ET X E eh Sc PEE E ER Li WR 8.3 所 示 。 
(4) 由 工 产生 候选 项 集 C. ,如 表 8. 4 所 示 。 
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表 8.3 L 表 8.4 C, 


项 集 支持 度 计 数 项 R 项 集 
(an) 6 {11,12} {12,14} 
{12} 7 {11,13} {12,15} 
(3) 6 {11,14} {13,14} 
(M) 2 {11,15} {13,15} 
{15} 2 {12,13} {14,15} 


(5) 再 次 扫描 数据 库 D, 对 每 个 候选 项 计数 产生 工 , ,如 表 8. 5 所 示 。 
(6) 对 Lo 进行 连接 和 剪 枝 ,产生 C, 即 最 终结 果 , 如 表 8.6 所 示 。 


表 8.5 L 表 8.6 C, 
LEES 支持 度 计数 项 集 
{11,12} 4 {11,12,13} 
{11,13} 4 
{11,12,15} 
{11,15} 2 
{12,13} 4 
{12,14} 2 
{12,15} 2 


下 面 介绍 L. 的 连接 与 剪 枝 产 生 Cs 的 过 程 。 
O 连接 运算 
C, — L;99L; 
= ((11,12) (01,13) (11,15) (12,13) (12,14)  (I2,15) ) co 
(01,12) | (I1, I3) (I2: I5) | (02.13) (12.14) | (12.15) ) 
= ((I1,I2,I3) , (I1,12, 5) , (I2, I3,I5) , (12,13, 14) , (I2, 13,14) , (12,13, I5) , (I2, 14, 15)) 
@ 剪 枝 运算 
{I1,12,13) 的 2 项 子 集 是 {11,12)、{I1,I3} 和 {12,13)。 
(1.12.13) f] rtg 2 项 子 集 都 是 Ls 的 元 素 。 因 此 ,保留 {IL,I2,I3} 在 Cs 中 。 
{I2,I3,I5} 的 2 项 子 集 是 {12,13)、{I2,I5} 和 {13,15)。 
{13,15) 不 是 L: 的 元 素 ,因而 不 是 频繁 的 。 因 此 ,删除 C 中 的 {12,13,15)。 
以 此 类 推 ,前 枝 后 C; 二 {{11,12,13).{I1,I2,I5)})。 
Apriori 算法 的 另 一 个 实例 如 图 8. 1 所 示 ,其 中 最 小 支持 度 阔 值 设 定 为 2。 
Apriori 算法 利用 候选 项 集 和 频繁 项 集 的 相互 作用 ,得 到 全 部 频繁 项 集 , 并 通过 对 候选 
项 集 的 剪 枝 , 大 大 减少 了 候选 项 集 的 大 小 ,获得 了 令 人 满意 的 结果 。 然 而 ,当面 对 挖掘 对 象 
具有 众多 的 频繁 模式 .长 模式 或 者 用 户 给 定 的 最 小 支持 度 的 阔 值 较 低 时 ,Apriori 算法 仍然 
可 能 因为 以 下 两 个 方面 的 巨大 开销 而 面临 困境 。 
(1) 在 处 理 大 量 的 候选 项 集 方面 ,如 果 算法 得 到 了 大 量 的 频繁 1 项 集 La , 则 在 产生 Cs 
时 ,会 遇 到 大 量 C. 难以 处 理 的 情况 。 例 如 假设 算法 得 到 的 频繁 1 项 集 Li 的 数量 是 10* , 则 
根据 Apriori 算法 ,产生 的 2 项 候选 集 数量 超过 107 ,由 于 候选 项 集 C, 没有 剪 枝 , 所 有 候选 
项 集 都 需要 检验 。 此 外 ,在 面 对 频 繁 模式 的 大 小 较 大 时 ,同样 会 产生 大 量 的 候选 项 集 需 要 检 


编号 | 项 项 集 | 支持 度 项 集 | 支持 度 
第 一 次 扫 
1 | 13.4 | 描 数 据 库 | 0 | 2 m| 2 
2 235| Sy 9 3 = | 2} 3 
3 [1,2,3,5 {3} | 3 G | 3 
4 | 25 ul]: {5} | 3 
{5} | 3 
C; Ls 
项 集 | 支持 度 项 集 | 支持 度 
UE {1,2} 1 {1,3} 2 
a3 | 2 23| 2 
a Ses 
{2,3} 2 {3,5} 2 
{25} | 3 
G5] 2 
上 C L; 
mas mu [e 项 集 [sein 
一 |235| 2 | => |235| 2 


8.1 Apriori 算 法 实例 


验 。 在 内 存 等 其 他 条 件 均 为 理想 状态 的 情况 下 ,这 种 由 产生 候选 项 集 的 方法 所 决定 的 开销 ， 
无 论 采 用 什么 实现 技术 都 无 法 回避 。 所 以 ,在 有 大 量 候选 项 集 产生 的 情况 下 ,Apriori 算法 
基本 无 法 运行 。 

(2) 采用 的 模式 匹配 方式 ,在 检测 大 量 的 候选 项 集 ,特别 是 长 模式 时 ,对 数据 库 的 重复 
扫描 非常 费时 ,大 量 时 间 消 耗 在 内 存 与 数据 库 的 数据 交换 上 。 

由 于 上 述 原 因 , 可 以 发 现 Apriori 算法 的 瓶颈 是 候选 项 集 的 产生 和 测试 过 程 。 如 果 有 
一 种 算法 能 够 对 产生 的 大 量 候选 项 集 进 行 有 效 的 控制 ,将 会 极 大 地 减少 时 间 开 销 。 

由 于 依赖 从 候选 项 集 产 生 频繁 项 集 的 Apriori 类 算法 具有 先天 的 弱点 ,使 得 A priori 类 
算法 的 应 用 没有 实质 性 突破 。Jiawei Han 等 提出 了 一 种 采用 压缩 的 数据 结构 (FP-tree) 存 
储 关联 规则 挖掘 所 需 的 全 部 数据 的 新 方法 ,通过 对 源 数据 的 两 次 扫描 ,将 数据 存储 到 FP- 
tree 结构 ,避免 产生 候选 项 集 , 极 大 地 减少 了 数据 交换 和 频繁 匹配 的 开销 , 即 所 谓 的 无 候选 
项 集 产生 算法 (Frequent Patterns Growth, FP-Growth) 。 


8.3 FP-Growth 


FP-Growth 克服 必须 产生 候选 项 集 的 限制 ,提出 了 关联 规则 挖掘 的 新 思路 ,主要 改进 
体现 在 : 
CD 构造 一 种 新 颖 的 、 紧 次 的 数据 结构 FP-tree。 它 是 一 种 扩展 的 前 缀 树 结构 ,存储 关 
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于 频繁 模式 数量 的 重要 信息 。 树 中 只 包含 长 度 为 1 的 频繁 项 作为 叶 结 点 ,并 且 那 些 频 度 高 
的 结 点 更 靠近 树 的 根 结 点 ,因此 频 度 高 的 项 比 那些 频 度 低 的 项 有 更 多 的 机 会 共享 同一 个 

(2) 开发 基于 FP-tree 的 模式 片断 成 长 算法 ,从 长 度 为 1 的 频繁 模式 开始 ,只 检查 其 条 
件 模式 及 构建 的 条 件 模式 树 ,并且 在 这 个 树 上 递归 地 执行 挖掘 。 模 式 的 成 长 通过 联合 条 件 
模式 树 新 产生 的 后 缀 模式 实现 。 由 于 事务 处 理 中 的 频繁 项 都 对 应 着 频繁 树 中 的 路 径 进 行 编 
码 ,模式 的 成 长 确保 了 结果 的 完整 性 。 因 此 ,FP-Growth 不 像 Apriori 那样 需要 产生 再 测 
试 ,挖掘 的 主要 操作 是 计算 累加 值 和 调整 前 级 树 , 这 种 开销 通常 远 远 小 于 Apriori 类 算法 中 
的 候选 项 集 的 产生 和 模式 匹配 操作 。 

G) 采用 基于 分 区 的 搜索 。 通 过 分 割 ,而 不 是 Apriori 类 算法 的 自 下 向 上 产生 频繁 模式 
的 集合 。 将 发 现 长 频繁 模式 的 问题 转化 为 寻找 短 模式 然后 再 与 后 级 连接 的 方法 ,避免 了 产 
生长 候选 项 集 。 

FP-tree 的 结构 包括 一 个 标识 为 Null 的 根 、 一 个 由 频繁 项 组 成 的 头 表 和 一 组 项 的 前 绥 
子 树 组 成 根 的 子孙 。 树 中 的 每 个 结 点 包括 项 名 (itemname)、 计 数 C(count) 和 结 点 链接 (node 
Link) 三 个 域 。 其 中 ,项 名 标识 结 点 所 代表 的 项 ; 计数 标识 树 中 到 达 该 结 点 的 路 径 所 代表 的 
事务 处 理 的 数目 ; 结 点 链接 指向 树 中 下 一 个 同名 结 点 ,如 果 没 有 同名 结 点 则 指向 空 。 头 表 
的 每 条 记录 包含 两 个 域 , 即 项 名 和 结 点 链接 的 头 。 结 点 链接 的 头 指向 树 中 第 一 个 同名 的 
结 点 。 

FP-tree 只 保存 满足 最 小 支持 度 的 项 的 集合 。 所 以 ,首先 需要 知道 哪些 项 符合 条 件 , 即 
构造 头 表 。 对 数据 库 进行 第 一 次 扫描 得 到 满足 最 小 支持 度 的 项 并 按 降序 排列 在 头 表 中 。 在 
得 到 头 表 之 后 ,对 源 数据 进行 第 二 次 扫描 ,对 每 个 事务 处 理 包 含 的 频繁 项 按照 其 在 头 表 的 先 
后 顺序 插入 到 树 。 插 入 到 树 的 事务 处 理 的 频繁 项 自然 是 树 的 一 个 路 径 ,但 如 果树 中 存在 其 
他 与 新 路 径 完全 相同 或 部 分 相同 的 路 径 , 则 需要 将 两 个 路 径 全 部 或 部 分 合并 ,将 事务 处 理 插 
人 到 FP-tree 中 的 函数 insert-tree([p/P],T) 是 算法 中 一 个 非常 关键 的 部 分 。 

FP-tree 是 一 个 高 度 压缩 的 结构 ,存储 用 于 频繁 模式 挖掘 的 全 部 信息 ,由 于 一 个 以 a 作 
为 前 缀 的 单一 路 径 w mas m mas 代表 所 有 那些 最 大 的 频繁 集 形式 为 ai: 一 as 一 … ax 
(1 二 k 志 nn) 的 事务 处 理 , 所 以 FP-tree 远 远 小 于 源 数 据 和 在 关联 规则 挖掘 过 程 中 产生 的 候选 
项 集 的 大 小 。 同 时 ,频繁 集中 的 项 以 支持 度 降序 排列 ,支持 度 越 高 的 项 与 FP-tree 树 根 越 接 
近 , 因 此 有 更 多 的 项 是 共享 的 。 

FP-Growth 算法 描述 如 下 : 

1. 构造 FP-tree 

扫描 数据 库 一 次 。 得 到 频繁 项 的 集合 下 和 其 支持 度 ,按照 支持 度 对 下 降序 排序 ,产生 
频繁 项 表 工 。 

创建 FP-tree 的 根 结 点 ,标记 为 Null。 对 于 数据 库 的 每 一 个 事务 ,选择 频繁 项 ,并 按 L 
中 的 次 序 排序 。 设 排序 后 的 频繁 项 表 为 [p/P], 其 中 P 是 第 一 个 元 素 , 而 了 是 剩余 元 素 的 
K. WH inserttree([p/P],T)。 该 过 程 执行 情况 如 下 : WR TAFE N 使 得 N. item- 
name=p. item-name, 则 N 的 计数 加 1; 否则 创建 一 个 新 结 点 N ,将 其 计数 设置 为 1 ,链接 到 
其 父 结 点 工 ,并 且 通 过 结 点 链 结构 将 其 链接 到 具有 相同 项 名 的 结 点 ; 如 果 P 非 空 ,递归 调用 


insert-tree( P. ND, 


2. 在 FP 树 中 挖掘 频繁 模式 


输入 : 事务 数据 库 D 的 FP 树 和 最 小 支持 度 阔 值 minsup。 


输出 : 所 有 频繁 模式 的 集合 。 
方法 : 调用 FP-Growth (FP-Tree,null) 。 


Procedure FP - Growth (Tree, a) 
if (Tree 只 包含 单 路 径 P) then 
对 路 径 P 中 结 点 的 每 个 组 合 ( 记 为 B) 


生成 模式 BU a, 支持 度 =B 中 所 有 结 点 的 最 小 支持 度 


else 对 Tree 头 上 的 每 个 ai do 
生成 模式 B= ai Ua, XX EHE = ai. support; 
构造 B 的 条件 模式 库 和 有 的 条 件 FP RE TreeB; 
if Treefz^$ 
then call FP - Growth (Tree, B) 


这 是 一 个 递归 调用 函数 ,根据 FP-tree 的 属性 和 上 述 的 引 理 和 推论 ,对 于 给 定 的 数据 源 


RU SC BEBE BR (P ,算法 可 以 获得 所 有 满足 条 件 的 频繁 项 集合 。 
假设 最 小 支持 度 阔 值 为 0. 5 ,交易 数据 库 如 表 8.7 所 示 。 


表 8.7 交易 数据 库 
交易 编号 购 物 项 排序 后 的 频繁 项 
100 f,asc,d,g,i,m,p f,c,a,m,p 
200 asb,c,f,l,m,o fcyaybym 
300 b,f,h,j,o fb 
400 b.c.k.s.p cyb,p 
500 asf,c,e,l,p,m,n f,c,a,m,p 


第 一 次 扫描 数据 库 , 得 到 频繁 1 项 集 ,然后 按照 频 度 的 降序 排列 。 再 次 扫描 数据 库 , 生 
成 的 FP-tree 如 图 8. 2 所 示 。 


头 表 


频 度 


> 


»|alel|s|e ,| 


ees 


由 图 8. 2 可 知 ,对 任意 频繁 项 a;, 顺 着 a; 的 结 点 链 , 从 a; 的 头 开 始 , 可 以 找到 包含 a; 的 


所 有 频繁 模式 。 


图 8.2 生成 的 FP-tree 
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第 9 章 Web 挖掘 


随 着 Internet 的 飞速 发 展 , 数 以 亿 计 的 静态 网 页 和 动态 网 页 汇聚 了 人 类 无 穷 的 智慧 , 海 
E Web 数据 包含 了 无 数 的 链接 .访问 路 径 和 丰富 的 内 容 。 据 统计 ,目前 全 世界 将 近 90% 的 
信息 是 Web, 而 且 其 数量 和 重要 性 仍 与 日 俱 增 。Web 数据 具有 蜡 构 . 半 结构 化 和 动态 等 

1. 异 构 

从 数据 库 的 角度 ,Web 信息 也 可 以 看 做 一 个 数据 库 ,一 个 更 大 ,更 复杂 的 数据 库 。 每 一 
个 Web 站 点 就 是 一 个 数据 源 , 每 个 数据 源 都 是 异 构 的 ,因而 每 一 站 点 的 信息 和 组 织 都 不 一 
样 ,这 就 构成 了 一 个 巨大 的 异 构 数 据 库 环境 。 如 果 想 利用 这 些 Web 进行 挖掘 ,首先 ,必须 要 
研究 异 构 Web 数据 的 集成 问题 ,只 有 将 它们 集成 起 来 提供 给 用 户 一 个 统一 的 视图 , 才 有 可 
能 从 巨大 的 Web 资源 中 获取 所 需 的 东西 。 其 次 ,还 要 解决 Web 查询 问题 ,因为 如 果 所 需 的 
Web 不 能 有 效 地 得 到 ,对 它们 的 分 析 、 集 成 .处理 就 无 从 谈 起 。 

2. 半 结 构 化 

Web 与 传统 数据 库 中 的 数据 不 同 , 传 统 的 数据 库 都 具有 一 定 的 数据 模型 ,可 以 根据 模 
型 具体 描述 特定 的 数据 。 而 Web 数据 非常 复杂 ,没有 特定 的 模型 描述 ,每 一 站 点 的 Web 都 
各 自 独立 ,并且 数 据 本 身 具 有 自述 性 和 动态 可 变性 。 因 而 ,Web 虽 具 有 一 定 的 结构 性 ,但 因 
自述 层次 的 存在 ,从 而 是 一 种 非 完 全 结构 化 数据 , 称 之 为 半 结 构 化 数据 。 半 结构 化 是 Web 
数据 的 最 大 特点 。 

3. 动态 性 

Web 数据 不 仅 每 天 都 以 极 快 的 速度 增长 ,而且 也 在 不 断 地 动态 变化 。 因 此 需要 借助 数 
据 仓 库 技 术 , 以 保存 动态 更 新 的 Web 数据 。 

综 上 所 述 ,从 海量 Web 中 真正 发 现 知识 存在 一 定 的 困难 ,主要 体现 在 : 

COD. Web 数量 太 庞大 ,例如 Web Informall 达 15T, 而 且 仍 在 迅速 增加 。 

(2) Web 复杂 性 高 于 任何 传统 的 文本 ,例如 Web 分 类 需要 预 处 理 , Web 缺乏 统一 的 结 
构 。Web 可 以 看 作 一 个 巨大 的 数字 图 书馆 ,而 这 一 图 书馆 中 的 大 量 信息 并 没有 按照 任何 排 
序 进 行 组 织 ,没有 分 类 索引 ,更 没有 标题 .作者 靡 页 和 目次 等 索引 ,在 其 中 搜索 所 需 信 息 极 具 
挑战 性 。 

(3) Web 面向 广泛 的 用 户 群 , 且 仍 在 不 断 地 扩展 。 不 同 用 户 具 有 不 同 的 背景 兴趣 和 使 
用 目的 。 大 部 分 用 户 并 不 了 解 信息 的 结构 ,不 清楚 搜索 的 高 昂 代 价 , 极 易 在 “黑暗 "中 迷失 方 
向 ,在 “跳跃 式 ” 访 问 中 烦 乱 不 已 和 在 等 待 中 失去 耐心 。 

(4) Web 只 有 很 小 的 一 部 分 是 相关 或 有 用 的 。 据 说 99% 的 Web 信息 相对 于 99% 的 用 
户 是 无 用 的 ,虽然 这 看 起 来 不 是 很 明显 .但 每 个 人 只 关心 很 小 一 部 分 Web 信息 确 是 事实 。 

由 于 Web 数据 的 复杂 性 和 动态 性 ,难以 搜索 ,发 现 和 利用 Web 中 蕴藏 的 大 量 知识 , 因 
此 Web 挖掘 是 知识 发 现 领 域 的 关键 问题 之 一 。 


9.1 概述 


9.1.1 定义 

Web 挖掘 从 数据 挖掘 发 展 而 来 ,但 Web 挖掘 比 传统 的 数据 挖掘 复杂 ,涉及 数据 挖掘 、 
计算 机 语言 学 和 信息 科学 等 多 个 领域 。 研 究 者 从 不 同 的 角度 出 发 ,对 Web 挖掘 的 定义 有 所 
不 同 。 

各 种 文献 中 ,常见 的 Web 挖掘 定义 如 下 : 

CD 描述 性 的 定义 

Web 挖掘 是 指使 用 数据 挖掘 技术 在 WWW 数据 中 发 现 潜在 的 、 有 用 的 模式 或 信息 。 
Web 挖掘 是 一 项 综合 技术 ,覆盖 了 多 个 研究 领域 ,包括 Web 技术 、 数 据 库 、 数 据 挖掘 、 计 算 
机 语言 学 ,信息 获取 统计 学 以 及 人 工 智 能 等 。 

(2) 抽象 化 的 定义 

一 般 地 ,Web 挖掘 是 指 从 大 量 Web 集合 C 中 发 现 隐 含 的 模式 p. WASTE C 看 做 输入 ， 
b 看 做 输出 , 则 Web 挖掘 就 是 一 个 从 输入 到 输出 的 映射 , 即 E: Co p. 

(3) 概括 性 的 定义 

Web 挖掘 是 从 与 WWW 相关 的 资源 和 行为 中 抽取 感 兴 趣 的 、 潜 在 有 用 的 模式 和 隐 含 
信息 。 

Web 挖掘 可 在 很 多 方面 发 挥 作用 ,如 搜索 引擎 .结构 挖掘 .确定 权威 页 面 、Web 文档 分 
X Web 日 志 挖掘 和 智能 检索 等 。 

根据 对 Web 兴趣 的 不 同 ,通常 Web 挖掘 可 分 为 Web 内 容 挖 掘 (Web content mining) , Web 
结构 挖掘 (Web structure mining) 和 Web 使 用 挖掘 (Web usage mining) 三 类 ,如 图 9. 1 所 示 。 


Web 挖 掘 
(Web mining) 


Web 内 容 挖掘 
(Web content 
mining) 


Web 结 构 挖掘 
(Web structure 
mining) 


Web 使 用 挖掘 
(Web usage 
mining) 


Web 页 面 内 容 挖掘 
(Web page content 
mining) 


搜索 结果 挖掘 
(search result 
mining) 


一 般 访问 模式 追踪 
(general access 
pattern tracking) 


定制 使 用 追踪 
(customized usage 
tracking) 


图 9.1 Web 挖掘 的 分 类 


1. Web 内 容 挖掘 
Web 内 容 挖 掘 是 指 从 Web 内 容 中 发 现 有 用 信息 , Web 信息 五 花 八 门 ,如 政府 信息 服 
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务 .数字 图 书馆 .电子 商务 数据 以 及 其 他 各 种 通过 Web 访问 的 数据 库 。Web 内 容 挖掘 对 象 
包括 文本 .图像 音频、 视频 .多 媒体 和 其 他 各 种 类 型 的 数据 ,其 中 针对 非 结 构 化 文本 的 Web 
挖掘 被 归 类 到 基于 文本 的 知识 发 现 , 也 称 文本 数据 挖掘 或 文本 挖掘 。 最 近 , Web 多 媒体 数 
据 挖掘 成 为 一 个 热点 。 

一 般 地 , Web 内 容 挖掘 可 以 从 两 种 不 同 的 角度 展开 。 从 资源 查找 (Information 
Retrieval,IR) 的 角度 看 , Web 内 容 挖 掘 的 任务 是 从 用 户 的 角度 出 发 ,提高 信息 质量 和 帮助 
用 户 过 滤 信 息 ; 从 数据 库 的 角度 看 ,Web 内 容 挖掘 的 主要 任务 是 对 Web 数据 进行 集成 、 建 
模 ,以 支持 复杂 的 Web 查询 。 

1) 从 资源 查找 的 角度 挖掘 非 结 构 化 文档 

非 结构 化 文档 主要 指 Web 上 的 自由 文本 ,包括 小 说 ,新 闻 等 。 这 方面 的 研究 相对 比较 多 ， 
大 部 分 研究 都 是 建立 在 词汇 袋 (bag of words) 或 向 量 表示 (vector representation) 的 基础 上 ,这 
种 方法 将 单个 词汇 看 成 文档 集合 中 的 属性 ,只 从 统计 的 角度 将 词汇 孤立 地 看 待 而 忽略 该 词 
汇 出 现 的 位 置 和 上 下 文 环境 。 属 性 可 以 是 布尔 型 , 即 词汇 是 否 在 文档 中 出 现 ; 也 可 以 是 频 
度 , 即 词汇 在 文档 中 的 出 现 频率 。 词 汇 袋 方法 的 一 个 弊端 是 自由 文本 中 的 词汇 量 非常 大 , 难 
以 处 理 。 为 解决 上 述 问 题 ,可 采用 信息 增益 、 交 又 焙 和 差异 比 等 方法 减少 属性 。 另 外 ,一 种 
比较 有 意义 的 方法 是 潜在 语义 索引 (latent semantic indexing) ,通过 分 析 不 同文 档 中 相同 主 
题 的 共享 词汇 ,找到 其 共同 的 词根 ,利用 这 个 公共 词根 代替 所 有 词汇 ,以 此 减少 维 空间 ,例如 
informing information informer 和 informed 可 以 用 它们 的 词根 inform 表示 ,这 样 可 以 减 
少 属性 集合 的 规模 。 

其 他 的 属性 表示 法 还 包括 词汇 在 文档 中 的 出 现 位 置 、 层 次 关系 、 使 用 短语 ,使 用 术语 和 
命名 实体 等 。 目 前 还 没有 研究 表明 一 种 表示 方法 明显 优 于 另 一 种 。 

2) 从 资源 查找 的 角度 挖掘 半 结 构 化 文档 

与 非 结构 化 文档 相 比 ,Web 半 结 构 化 文档 挖掘 是 指 对 加 入 了 HTML、 超 链接 等 附加 结 
构 的 信息 进行 挖掘 ,其 应 用 包括 超 链接 文本 的 分 类 、 聚 类 发现 文档 之 间 的 关系 以 及 提出 半 
结构 化 文档 中 的 模式 和 规则 等 。 

3) 从 数据 库 的 角度 挖掘 非 结构 化 文档 

数据 库 技术 应 用 于 Web 挖掘 主要 是 为 了 解决 Web 信息 的 管理 和 查询 问题 。 这 些 问 题 
可 以 分 为 三 类 : Web 信息 的 建 模 和 查询 ; 信息 抽取 与 集成 ; Web 站 点 构建 和 重 构 。 

从 数据 库 的 观点 进行 Web 内 容 挖掘 主要 是 建立 Web 数据 模型 并 加 以 集成 ,以 支持 复 
杂 查 询 , 而 不 只 是 简单 的 基于 关键 词 的 搜索 。 这 要 通过 找到 Web 文档 的 模式 、 建 立 Web 数 
据 仓库 或 Web 知识 库 或 虚拟 数据 库 实现 。 

主要 利用 OEM(Object Exchange Model ,对 象 交 换 模型 ) 将 半 结 构 化 数据 表示 成 标识 
图 。OEM 的 每 个 对 象 都 有 对 象 标识 (COID) 和 值 , 值 可 以 是 原子 类 型 ,如 整 型 .字符 串 .gif 和 
html 等 ,也 可 以 是 一 个 复合 类 型 ,以 对 象 引 用 集合 的 形式 表示 。 由 于 Web 数量 非常 庞大 ， 
从 应 用 的 角度 考虑 ,很 多 研究 只 处 理 半 结 构 化 数据 的 一 个 常用 子 集 。 一 些 有 意义 的 应 用 是 
建立 多 层 数 据 库 ,每 一 层 是 其 下 面 层 次 的 概 化 ,这 样 可 以 进行 一 些 特殊 的 查询 和 信息 处 理 。 
由 于 数据 的 表示 方法 较 特 殊 , 其 中 包含 了 关系 层次 和 图 形 化 的 数据 ,所 以 大 部 分 建立 在 扁平 
数据 集合 之 上 的 数据 挖掘 方法 不 能 直接 使 用 ,目前 已 经 开展 针对 多 层 数据 库 挖 掘 算法 的 
人 研究 。 


2. Web 结构 挖掘 

Web 结构 挖掘 的 对 象 是 Web 本 身 的 超 链接 , 即 对 Web 文档 结构 的 挖掘 。 对 于 给 定 的 
Web 文档 集合 ,应 该 能 够 通过 算法 发 现 它们 之 间 链 接 情 况 的 有 用 信息 ,文档 之 间 的 超 链 接 
反映 包含 .引用 或 者 从 属 关系 ,引用 文档 对 被 引用 文档 的 说 明 往 往 更 客观 、 更 概括 和 更 准确 。 

Web 结构 挖掘 在 一 定 程度 上 得 益 于 社会 网 络 和 引用 分 析 的 研究 。 把 Web 之 间 的 关系 
分 为 incoming 和 outgoing 连接 ,运用 引用 分 析 方 法 找到 同一 网 站 内 部 以 及 不 同 网 站 之 间 的 
链接 关系 。 在 Web 结构 挖掘 领域 最 著名 的 算法 是 HITS 和 PageRank 算法 ,其 共同 点 是 通 
过 计算 Web 之 间 超 链接 的 质量 ,从 而 得 到 页 面 权 重 。 著 名 的 Google 搜索 引擎 采用 了 该 类 
算法 。 此 外 ,Web 结构 挖掘 的 另 一 个 尝试 是 在 Web 数据 仓库 环境 下 ,通过 检查 同一 台 服 务 
器 上 的 本 地 连接 衡量 Web 结构 ,挖掘 Web 站 点 的 完全 性 ,在 不 同 的 Web 数据 仓库 中 检查 
副本 以 帮助 定位 镜像 站 点 ,通过 发 现 针 对 某 一 特定 领域 的 超 链 接 的 层次 属性 探索 信息 流动 
如 何 影响 Web 站 点 的 设计 。 

3. Web 使 用 挖掘 

HJ Web 使 用 记录 挖掘 ,在 新 兴 的 电子 商务 领域 具有 重要 意义 。 它 通过 挖掘 相关 的 
Web 日 志 , 发 现 用 户 访问 Web 页 面 的 模式 ,通过 分 析 日 志 的 规律 ,可 以 识别 用 户 的 忠诚 度 、 
喜好 和 满意 度 ,可 以 发 现 潜在 用 户 ,增强 站 点 的 服务 竞争 力 。 除 了 服务 器 日 志 外 ,还 包括 代 
理 服 务 器 日 志 、 浏 览 器 端 日 志 , 注 册 信 息 、 用 户 会 话 信息 、 交 易 信息 、Cookie 中 的 信息 ,用户 
查询 和 鼠标 点 击 流 等 一 切 用 户 与 站 点 之 间 可 能 的 交互 记录 。Web 使 用 记录 的 数据 量 非 常 
巨大 ,而 且 数 据 类 型 也 相当 丰富 。 

根据 对 数据 源 的 处 理 方 法 不 同 , Web 使 用 挖掘 可 以 分 为 两 类 ,其 一 是 将 Web 使 用 记录 
转换 并 导入 传统 的 关系 表 , 再 使 用 数据 挖掘 算法 对 关系 表 数 据 进行 常规 挖掘 ; 其 二 是 将 
Web 使 用 记录 直接 预 处 理 再 进行 挖掘 。Web 使 用 挖掘 的 一 个 有 趣 问题 是 在 多 个 用 户 使 用 
同一 个 代理 服务 器 环境 下 如 何 标识 某 个 用 户 ,如何 识别 属于 该 用 户 的 会 话 和 使 用 记录 ,这 个 
问题 看 起 来 不 大 ,但 却 在 很 大 程度 上 影响 着 挖掘 质量 。 通 常 经 典 的 数据 挖掘 算法 都 可 以 直 
接 用 于 Web 使 用 挖掘 。 但 是 ,为 了 提高 挖掘 质量 ,可 采用 改进 算法 ,如 复合 关联 规则 算法 、 
改进 的 序列 发 现 算法 等 。 

Web 使 用 挖掘 的 应 用 主要 体现 在 : 

1) 个 性 挖掘 

针对 单个 用 户 的 使 用 记录 对 该 用 户 进行 建 模 ,结合 该 用 户 基本 信息 分 析 其 使 用 习惯 ,个 
人 喜好 ,目的 是 在 电子 商务 环境 下 为 该 用 户 提供 与 众 不 同 的 个 性 化 服务 。 

2) 系统 改进 

Web 服务 (数据 库 、 网 络 等 ) 的 性 能 和 其 他 的 服务 质量 是 衡量 用 户 满意 度 的 关键 指标 ， 
Web 使 用 挖掘 可 以 通过 用 户 的 拥塞 记录 发 现 站 点 的 性 能 瓶颈 ,提示 站 点 管理 者 改进 Web 
缓存 策略 .网络 传输 策略 ,流量 负载 均衡 机 制 和 数据 分 布 策略 等 。 此 外 ,还 可 以 通过 分 析 网 
络 的 非法 入侵 数据 发 现 系统 弱点 ,提高 站 点 安全 性 ,这 在 电子 商务 环境 下 尤为 重要 。 

3) 站 点 修改 

站 点 的 结构 和 内 容 是 吸引 用 户 的 关键 。Web 使 用 挖掘 通过 挖掘 用 户 的 行为 记录 和 反 
馈 信息 为 站 点 设计 者 提供 改进 依据 ,例如 页 面 链接 如 何 组 织 、 哪 些 页 面 能 够 直接 访问 等 。 

4) 智能 商务 

用 户 怎样 使 用 Web 站 点 的 信息 无 疑 是 电子 商务 销售 商 关 心 的 重点 ,用 户 一 次 访问 的 周 
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期 可 分 为 吸引 、 驻 留 、 购 买 和 离开 四 个 阶段 。Web 使 用 挖掘 可 以 通过 分 析 用 户 点 击 流 等 
Web 日 志 挖 掘 用户 行为 的 动机 ,帮助 销售 商 制定 合理 的 营销 策略 。 
5) Web 特征 描述 
通过 用 户 对 站 点 的 访问 情况 统计 各 个 用 户 的 Web 交互 情况 ,描述 用 户 的 访问 特征 。 
综 上 所 述 , 目 前 Web 挖掘 存在 的 不 足 主要 体现 在 : 
* Web 内 容 挖掘 .Web 结构 挖掘 和 Web 使 用 挖掘 相互 独立 ,没有 互相 利用 有 机 结合 。 
例如 Web 内 容 挖掘 算法 没有 充分 利用 Web 文档 中 的 结构 信息 和 超 链 接 信 息 。 
* Web 内 容 控 掘 几乎 没有 利用 语义 信息 。 目 前 的 Web 文档 内 容 挖掘 大 都 是 基于 信息 
提取 ,而 没有 在 获取 Web 文档 的 语义 信息 基础 上 建立 挖掘 的 理论 和 算法 ,这 使 得 控 
掘 结果 的 精度 较 差 ,质量 不 够 理想 。 
。 Web 挖掘 算法 尚 不 能 有 效 处 理 海量 数据 。 这 也 是 传统 数据 挖掘 面临 的 难题 之 一 。 


9.1.2 自然 语言 理解 


随 着 社会 的 日 益 信息 化 ,人 们 越 来 越 强 烈 地 希望 用 自然 语言 同 计算 机 交流 ,建立 起 一 种 
人 与 机 器 之 间 的 密切 而 友好 的 关系 ,使 之 能 进行 高 级 的 信息 传递 与 认 知 活动 。 自 然 语言 理 
解 是 计算 机 科学 中 一 个 引人入胜 、 富 有 挑战 性 的 课题 。 从 计算 机 科学 特别 是 从 人 工 智 能 的 
观点 看 ,自然 语言 理解 的 任务 是 建立 一 种 计算 机 模型 , 它 能 够 给 出 像 人 那样 理解 ,分 析 并 回 
答 自 然 语 言 ( 即 人 们 日 常 使 用 的 各 种 通俗 语言 ) 的 结果 。 自 然 语 言 处 理 就 是 研究 如 何 能 让 计 
算 机 理解 并 生成 人 们 日 常 所 使 用 的 语言 (如 汉语 、 英 语 等 ), 让 计算 机 懂得 自然 语言 的 含义 ， 
并 对 人 给 计算 机 提出 的 问题 ,通过 对 话 的 方式 ,用 自然 语言 进行 回答 。 自 然 语 言 理解 系统 可 
以 用 作 专 家 系统 、 知 识 工 程 、 情 报 检索 、 办 公 自 动 化 的 自然 语言 人 机 接口 ,具有 重要 的 实用 
价值 。 

1. 自然 语言 理解 的 发 展 与 演变 

由 于 对 自然 语言 理解 的 需求 ,因此 对 自然 语言 处 理 的 研究 在 电子 计算 机 问世 之 初 就 开 
始 了 。20 世纪 40 年 代 末期 就 有 学 者 提出 用 计算 机 进行 自然 语言 翻译 的 构想 ,并 于 50 年 代 
初 开展 了 机 器 翻译 试验 。 第 一 代 翻 译 系统 以 词汇 转换 为 主 ,很 少 进行 句法 分 析 ,还 不 能 称 作 
“理解 ”。 

到 了 20 世纪 60 年 代 , 乔 姆 斯 基 的 转换 生成 语法 得 到 广泛 的 认可 ,对 句子 的 分 析 就 是 利 
用 短语 结构 规则 自 项 向 下 或 自 底 向 上 地 生成 句法 树 , 从 而 得 到 句子 的 句法 结构 。 转 换 生 成 
语法 把 机 器 翻译 带 入 句法 分 析 的 时 代 , 也 使 得 对 自然 语言 的 处 理 提升 到 新 的 水 平 。 由 于 认 
识 到 生成 语法 缺少 表示 语义 知识 的 手段 ,不 利于 自然 语言 理解 ,在 70 年 代 随 着 认 知 科学 的 
兴盛 ,学 者 们 纷纷 从 语义 的 角度 出 发 ,提出 语义 理论 ,在 自然 语言 处 理 中 大 量 引进 语义 、 语 境 
以 及 语 用 的 分 析 技 术 。20 世纪 60 年 代 末 期 ,M. R. Qullian 提出 了 语义 网 络 理论 ,用 于 描述 
概念 之 间 的 关系 ; C.J. Fillmore 提出 了 格 语法 ,用 语义 格 和 深层 格 框 描述 句 义 ; 1973 年 ， 
Roger Schank 提出 了 概念 从 属 (Conceptual Dependency. CD) 理 论 ,描述 句 义 和 言语 义 ; 
1975 年 ,Minsky 提出 了 框架 理论 ,用 于 描述 事物 或 概念 状态 。 这 些 理论 经 过 发 展 ,逐渐 开 
始 趋 于 相互 结合 。 

到 20 世纪 80 年 代 一 批 新 的 语法 理论 脱颖而出 ,具有 代表 性 的 包括 词汇 功能 语法 


(Lexical Function Grammar. LFG)、 功 能 合 一 语法 (Functional Unification Grammar, 
FUG) 广义 短语 结构 语法 (Generalized Phrase Structure Grammar,;GPSG) 等 。 虽然 ,这 些 
基于 规则 的 分 析 方 法 基本 上 解决 了 单个 句子 的 分 析 技 术 , 但 是 还 很 难 覆 盖 全 面 的 语言 现象 ， 
特别 是 对 于 整个 段落 或 篇 章 的 理解 还 无 从 下 手 。 

20 世纪 90 年 代 , 在 自然 语言 处 理 领 域 中 ,出 现 了 基于 语料库 的 方法 ,对 大 规模 真实 文 
本 进行 处 理 。 这 些 方法 包括 统计 、 基 于 实例 的 方法 等 。 通 过 词法 、 句 法、 语义 等 多 层次 的 加 
工 从 未 经 处 理 的 生 语 料 中 获取 各 种 语言 知识 .情景 知识 和 语 境 知 识 等 ,然后 利用 这 些 知识 对 
语言 进行 分 析 理 解 。 因 此 基于 知识 的 方法 成 为 主流 发 展 趋势 。 从 整个 自然 语言 理解 的 发 展 
历程 来 看 ,自然 语言 理解 经 历 了 从 单纯 依靠 语法 规则 到 语义 分 析 与 句法 分 析 相 结合 ,到 最 后 
利用 知识 消除 歧义 的 过 程 。 

语料库 是 大 量 文本 的 集合 ,计算 机 出 现 后 , 语 料 可 以 被 方便 地 存储 起 来 ,利用 计算 机 查 
找 也 很 容易 。 随 着 电子 出 版 物 的 出 现 , 语 料 采集 也 不 再 困难 。 最 早 于 20 世纪 60 年 代 编制 
的 Brown 和 LOB 两 个 计算 机 语料库 ,分 别 具 有 100 万 词 次 的 规模 。 进 入 90 年 代 可 列举 出 
的 语料库 有 几 十 个 之 多 ,如 DCI ECI ICAME, BNC, LDC 和 CLR 等 ,规模 最 大 达到 10° 数 
量 级 。 

对 语料库 的 研究 分 为 三 个 方面 : 工具 软件 的 开发 .语料库 的 标注 和 基于 语料库 的 语言 
分 析 方 法 。 采 集 后 未 经 处 理 的 生 语 料 不 能 直接 提供 有 关 语 言 的 各 种 知识 ,只 有 通过 词法 、 句 
法 .语义 等 多 层次 的 加 工 才 能 使 知识 获取 成 为 可 能 。 加 工 的 方式 就 是 在 语 料 中 标注 各 种 记 
号 ,标注 的 内 容 包括 每 个 词 的 词性 .语义 项 .短语 结构 、 句 型 和 句 间 关 系 等 。 随 着 标注 程度 的 
加 深 语 料 库 逐 渐 熟 化 ,成 为 一 个 分 布 的 、 统 计 意 义 上 的 知识 源 。 利 用 这 个 知识 源 可 以 进行 许 
多 语言 分 析 工 作 , 例 如 根据 从 已 标注 语 料 中 总 结 出 的 频 度 规律 可 以 给 新 文本 逐 词 标注 词性 ， 
划分 句子 成 分 等 。 

语料库 提供 的 知识 是 用 统计 强度 表示 的 ,而 不 是 确定 性 的 , 随 着 规模 的 扩大 , 旨 在 覆盖 
全 面 的 语言 现象 。 但 是 对 于 语言 中 基本 的 确定 性 的 规则 仍然 用 统计 强度 的 大 小 去 判断 ,这 
与 人 们 的 常识 相 违背 。 这 种 "经 验 主义 ”研究 中 的 不 足 要 靠 理性 的 方法 弥补 。 两 类 方法 的 融 
合 也 正 是 当前 自然 语言 处 理发 展 的 趋势 。 

自然 语言 理解 系统 的 发 展 可 以 分 为 第 一 代 系 统 和 第 二 代 系 统 两 个 阶段 。 第 一 代 系统 建 
立 在 对 词类 和 词 序 分 析 的 基础 之 上 ,分 析 中 经 常 使 用 统计 方法 ; 第 二 代 系 统 则 开始 引入 语 
义 甚 至 语 用 和 语 境 的 因素 ,几乎 完全 抛 开 了 统计 技术 。 

第 一 代 自 然 语言 理解 系统 又 可 分 为 四 种 类 型 B] ; 

1) 特殊 格式 系统 

早期 的 自然 语言 理解 系统 大 多 数 是 特殊 格式 系统 ,根据 人 机 对 话 内 容 的 特点 ,采用 特殊 
的 格式 进行 人 机 对 话 。1963 年 , 林 德 赛 (R. Lindsay) 用 IPL-V (Information Processing 
Language V) 表 处 理 语言 设计 的 SAD-SAM 系统 ,就 采用 了 特殊 格式 进行 关于 亲属 关系 方 
面 的 人 机 对 话 , 系 统 内 建立 了 一 个 关于 亲属 关系 的 数据 库 ,可 接收 关于 亲属 关系 方面 问题 的 
英语 句子 提问 ,并 用 英语 作出 回答 ; 1968 4E UE fi ift CD. Bobrow) 在 美国 麻 省 理工 学 院 设计 
了 STUDENT 系统 ,这 个 系统 把 高 中 代数 应 用 题 中 的 英语 句子 归纳 为 一 些 基本 模式 ,由 计 
算 机 来 理解 这 些 应 用 题 中 的 英语 句子 , 列 出 方程 求解 并 给 出 答案 。20 世纪 60 年 代 初期 , 格 
林 (B. Green) 在 美国 林肯 实验 室 建立 了 BASEBALL 系统 ,也 使 用 IPL-V 表 处 理 语言 ,系统 
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的 数据 库 中 存储 了 关于 美国 1959 年 联邦 棒球 赛 得 分 记录 的 数据 ,可 回答 有 关 棒 球赛 的 一 些 
问题 。 该 系统 的 句法 分 析 能 力 较 差 ,输入 句子 十 分 简单 ,没有 连接 词 , 也 没有 比较 级 形式 的 
形容 词 和 副词 ,主要 靠 一 部 机 器 词典 进行 单词 的 识别 ,使 用 了 14 个 词类 范畴 ,所 有 的 问题 都 
采用 一 种 特殊 的 规范 表达 式 回答 。 

2) 以 文本 为 基础 的 系统 

特殊 格式 系统 中 格式 的 限制 , 带 来 了 诸多 不 便 。 因 为 就 一 个 专门 领域 而 言 ,最 方便 
的 还 是 使 用 不 受 特殊 格式 结构 限制 的 系统 进行 人 机 对 话 , 因 此 后 来 出 现 了 以 文本 为 基础 
的 系统 ,1966 年 西蒙 (R. F. Simmons) , fg 4 fit CJ. F. Burger) 和 龙 格 (R. E. Long) 设 计 的 
PROTOSYNTHEX-I 系统 ,就 是 以 文本 信息 的 存储 和 检索 方式 工作 的 。 

3) AREARE 

有 限 逻辑 系统 进一步 改进 了 以 文本 为 基础 的 系统 。 在 这 种 系统 中 ,自然 语言 的 句子 以 
某 种 更 加 形式 化 的 记号 替代 ,这 些 记号 自 成 一 个 有 限 迎 辑 系统 ,可 以 进行 某 些 推理 。1968 
年 , 拉 菲 尔 (B. Raphael) 在 美国 麻 省 理工 学 院 用 LISP 语言 建立 了 SIR 系统 ,针对 英语 提出 
T 24 个 匹配 模式 ,把 输入 的 英语 句子 与 这 些 模式 相 匹配 ,从 而 识别 输入 句子 的 结构 ,在 从 存 
储 知识 的 数据 库 到 回答 问题 的 过 程 中 ,可 以 处 理 人 们 对 话 中 常用 的 一 些 概 念 ,如 集合 的 包含 
关系 、 空 间 关 系 等 ,可 进行 简单 逻辑 推理 ,并 且 机 器 能 在 对 话 中 进行 学 习 , 记 住 已 学 过 的 知 
识 , 从 事 一 些 初步 的 智能 活动 。1965 年 ,斯 莱 格 勒 (J. R. Slagle) 建 立 了 DEDUCOM 系统 ， 
可 在 情报 检索 中 进行 演绎 推理 。1966 年 , 桑 普 逊 (F. B. Thompson) 建 立 了 DEACON 系统 ， 
通过 英语 管理 一 个 虚构 的 军用 数据 库 , 设 计 中 使 用 了 环 结构 和 近似 英语 的 概念 进行 推理 。 
1968 年 , 凯 罗 格 (C. Kellog) Æ IBM360/67 计算 机 上 ,建立 了 CONVERSE 系统 , 它 能 根据 美 
国 120 个 城市 的 1000 个 事实 的 文件 进行 推理 。 

4) 一 般 演绎 系统 

一 般 演绎 系统 使 用 某 些 标准 数学 符号 (如 谓词 演算 符号 ) 表 达 信 息 。 逻 辑 学 家 们 在 定理 
证 明 工 作 上 取得 的 全 部 成 就 ,就 可 以 用 来 作为 建立 有 效 的 演绎 系统 的 根据 ,从 而 能 够 把 任何 
一 个 问题 用 定理 证 明 的 方式 表达 出 来 ,并 实际 地 演绎 出 所 需要 的 信息 ,用 自然 语言 做 出 回 
答 。 一 般 演 绎 系统 可 以 表达 那些 在 有 限 逻辑 系统 中 不 容易 表达 出 来 的 复杂 信息 ,进一步 提 
高 了 自然 语言 理解 系统 的 能 力 。1968 年 至 1969 年 ,格林 和 拉 菲 尔 建立 的 QA2 和 QA3 系 
统 , 采 用 谓词 演算 的 方式 和 格式 化 的 数据 进行 演绎 推理 ,解答 问题 ,并 用 英语 作出 回答 ,这 是 
一 般 演绎 系统 的 典型 代表 。 

1970 年 以 来 ,出 现 了 第 二 代 自 然 语言 理解 系统 ,这 些 系 统 绝 大 多 数 是 程序 演绎 系统 ,大 
量 地 进行 语义 、 语 境 乃 至 语 用 的 分 析 。 其 中 比较 有 名 的 是 LUNAR、SHRDLU、MARGIE、 
SAM fil PAM 等 系统 。 

LUNAR 系统 是 伍兹 (W. Woods) F 1972 年 设计 的 一 个 自然 语言 情报 检索 系统 。 该 系 
统 采用 形式 提问 语言 (formal query language) 表 示 所 提问 的 语义 ,从 而 对 提问 的 句子 作出 语 
义 解 释 ,最 后 把 形式 提问 语言 用 于 数据 库 , 产 生 对 问题 的 回答 。 

SHRDLU 系统 是 维 诺 格拉 德 (T. Winograd) 于 1972 年 在 美国 麻 省 理工 学 院 建立 的 一 
个 用 自然 语言 指挥 机 器 人 动作 的 系统 。 该 系统 把 句法 分 析 、 语 义 分 析 和 风 辑 推理 结合 起 来 ， 
大 大 地 增强 了 系统 在 语言 分 析 方 面 的 功能 。 该 系统 对 话 的 对 象 是 一 个 具有 简单 的 “ 手 ” 和 
“ 眼 ” 的 玩具 机 器 人 , 它 可 以 操作 放 在 桌子 上 的 具有 不 同 颜色 .尺寸 和 形状 的 玩具 积木 ,如 立 


方 体 .棱锥 体 和 盒子 等 ,机 器 人 能 够 根据 操作 人 员 的 命令 把 这 些 积木 捡 起 来 ,移动 它们 去 搭 
成 新 的 积木 结构 。 在 人 机 对 话 过 程 中 ,操作 人 员 能 获得 发 送 给 机 器 人 的 各 种 视觉 反馈 ,实时 
地 观察 机 器 人 理解 语言 .执行 命令 的 情况 。 在 电视 屏幕 上 还 可 以 显示 出 这 个 机 器 人 的 模拟 
形象 以 及 它 同 一 个 真正 的 活 人 在 电 传 机 上 自由 地 用 英语 对 话 的 生动 情景 。 

MARGIE 系统 是 香 克 (R. Schank) F 1975 年 在 美国 斯 坦 福 大 学 人 工 智 能 实验 室 研制 
出 来 的 。 该 系统 的 目的 在 于 提供 一 个 自然 语言 理解 的 直观 模型 。 系 统 首 先 把 英语 句子 转换 
为 概念 依存 表达 式 ,然后 根据 系统 中 有 关 信 息 进行 推理 ,从 概念 依存 表达 式 中 推演 出 大 量 的 
事实 。 由 于 人 们 在 理解 句子 时 ,总 要 牵涉 到 比 句 子 的 外 部 表达 多 得 多 的 内 容 , 因 此 ,该 系统 
的 推理 有 16 种 类 型 ,如 原因 效应 .说 明和 功能 等 。 最 后 ,把 推理 的 结果 转换 成 英语 输出 。 

SAM 系统 是 阿 贝尔 森 (R. Abelson) F 1975 年 在 美国 耶鲁 大 学 建立 的 。 该 系统 采用 脚 
本 (Script) 理 解 自 然 语言 写 的 故事 。 所 谓 脚 本 ,就 是 用 来 描述 人 们 活动 (如 吃饭 、 看 病 ) 的 一 
种 标准 化 的 事件 系列 。 

PAM 系统 是 威 林 斯 基 (R. Wilensky) 于 1978 年 在 美国 耶鲁 大 学 建立 的 另 一 个 理解 故 
事 的 系统 。PAM 系统 也 能 解释 故事 情节 ,回答 问题 ,进行 推论 ,做 出 摘要 。 它 除了 “脚本 ” 
中 的 事件 序列 之 外 ,还 提出 了 计划 (plan) 作 为 理解 故事 的 基础 。 所 谓 计划 就 是 故事 中 的 人 
物 为 实现 其 目的 所 要 采取 的 手段 。 如 果 要 通过 “计划 ”理解 故事 ,就 要 找 出 人 物 的 目的 以 及 
为 完成 这 个 目的 所 采取 的 行动 。 系 统 中 设 有 一 个 “计划 库 ”(plan box) ,存储 着 有 关 各 种 目 
的 的 信息 以 及 各 种 手段 的 信息 。 这 样 ,在 理解 故事 时 只 要 找到 故事 中 有 关 情 节 与 计划 库 中 
存储 的 信息 相 重 合 的 部 分 ,就 可 以 理解 到 这 个 故事 的 目的 是 什么 。 当 一 个 一 个 的 故事 情节 
与 脚本 匹配 出 现 障 碍 时 ,由 于 “计划 库 ” 中 可 提供 关于 一 般 目 的 的 信息 ,就 不 致 造成 故事 理解 
的 失败 。 例 如 ,营救 一 个 被 暴徒 动 持 的 人 质 , 在 “营救 "这 个 总 目的 项 下 列 出 若干 个 子 目 的 ， 
包括 到 达 暴徒 的 集 穴 以 及 杀 死 暴徒 的 各 种 方法 ,就 可 以 预期 下 一 步 的 行为 。 同 时 能 根据 主 
题 来 推论 目的 。 例 如 输入 故事 :“ 约 翰 爱 玛丽 ; 玛丽 被 暴徒 抢 走 了 。”PAM 系统 即 可 预期 约 
翰 要 采取 行动 营救 玛丽 。 故 事 中 虽然 没有 这 样 的 内 容 , 但 是 ,根据 计划 库 中 的 “爱情 主题 ”， 
可 以 推出 “约翰 要 采取 行动 营救 玛丽 ”的 情节 。 

上 述 系统 都 是 书面 的 自然 语言 理解 系统 ,输入 和 输出 都 是 用 书面 文字 。 口 头 的 自然 
言 理 解 系统 ,还 牵涉 到 语音 识别 .语音 合成 等 复杂 技术 ,显然 是 更 加 困难 的 ,口头 自然 语言 
解 系统 的 研究 近年 来 也 有 一 定 进 展 。 

2. 现代 汉语 的 研究 现状 

汉语 研究 基本 上 都 是 从 概率 统计 向 着 汉语 的 语义 研究 方向 发 展 。 语 义 是 汉语 理解 的 一 
条 蹊 径 ,以 词义 为 基础 与 句法 规则 结合 ,以 句子 为 突破 口 。 国 内 主要 针对 汉语 信息 处 理 的 研 
究 项 目 主要 有 以 下 三 个 流派 。 

(1) 以 传统 计算 语言 学 为 基本 理论 ,从 词素 分 析 入 手 ,进而 研究 词 一 短语 (词组 ) 一 语 
段 一 句子 。 概 括 地 说 ,传统 计算 语言 学 的 种 种 理论 和 方法 ,都 以 语 料 统计 为 基础 ,因此 还 需 
要 结合 语言 规则 ,例如 借鉴 了 西方 计算 语言 学 的 众多 理论 和 方法 如 短语 结构 语法 ,扩充 转移 
网 络 、 从 属 关系 语法 和 配 价 语法 等 。 

(2) 概念 层次 网 络 (Hierarchical Network of Concepts. HNC) 理 论 。 黄 曾 阳 提出 的 
HNC 理论 认为 ,自然 语言 理解 的 关键 是 描述 人 的 语言 感知 过 程 的 适当 模式 ,试图 建立 一 种 
模拟 大 脑 语言 认 知 过 程 的 自然 语言 的 计算 机 理解 处 理 模式 。HNC 把 自然 语言 要 表述 的 知 
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识 划分 为 概念 .语言 和 常识 三 个 独立 的 层面 ,并 为 此 建立 不 同 的 知识 库 , 通 过 建立 局 部 和 全 
局 两 类 联想 脉络 帮助 计算 机 理解 自然 语言 。 

(3) 基于 内 涵 模 型 论 的 语义 分 析 , 该 理论 是 由 陆 汝 占 教授 提出 的 。 该 理论 将 汉语 表达 
式 抽象 成 数学 表达 式 ,恰当 地 表示 内 涵 和 外 延 ,然后 把 这 些 语 义 表示 在 计算 机 内 进行 处 理 ， 
即 把 汉语 表达 式 与 计算 机 数据 结构 之 间 直 接 联结 ,改变 为 汉语 表达 式 -抽象 数学 表示 -数据 
结构 三 者 的 间接 联结 。 具 体 设 想 是 先 构 造 一 种 句子 的 逻辑 式 之 间 的 中 介 形 式 “ 函 子 ” 
(functor) ,以 表示 谓语 动词 连同 支配 成 分 一 起 构成 的 语句 核心 ,表现 句 义 的 基本 要 素 。 函 
子 加 上 时 态 、 模 态 算 子 就 可 以 表示 语 态 ,构成 句子 的 基本 逻辑 含义 。 

以 上 对 汉语 的 研究 面临 着 不 同 的 问题 。 第 一 种 流派 较 好 地 处 理 了 汉语 的 表层 语法 结 
构 , 但 是 面临 着 如 何 集成 和 如 何 解 决 词义 . 句 子 的 问题 ;第 三 种 流派 ,理论 设计 还 较 粗略 , 趋 
向 于 把 自然 语言 的 表示 数学 化 ,虽然 这 一 理论 已 经 解决 了 一 些 实用 问题 ,但 是 对 自然 语言 本 
身 的 理解 做 得 不 够 ,要 证 明 它 可 以 适用 于 整个 现代 汉语 ,还 需要 进一步 推 项、 实验 和 细 化 。 

对 汉语 的 处 理 不 仅 依赖 于 语言 的 表层 结构 表示 ,更 重要 的 是 语言 的 深层 结构 层次 的 表 
示 。 第 二 种 流派 HNC 提出 了 深层 次 的 语言 结构 的 表示 ,语言 抽象 表示 的 概念 化 和 层次 化 
都 适合 汉语 的 研究 ,但 需要 建立 庞大 的 知识 库 , 总 体 地 检验 和 完善 其 理论 和 技术 的 可 行 性 ， 
因此 该 理论 需要 长 期 的 实践 验证 。 此 外 ,和 鲁 川 对 汉语 的 信息 处 理 , 提 出 了 汉语 的 意 合 网 络 ， 
给 出 了 语义 的 组 合 知识 ,但 是 对 于 知识 的 获取 涉及 甚 少 。 董 振东 提出 的 知 网 (How-Net) 建 
立 了 一 个 以 揭示 概念 与 概念 之 间 以 及 概念 所 具有 的 属性 之 间 的 关系 为 基本 内 容 的 常识 知识 
库 , 但 是 对 概念 的 描述 停留 在 词汇 层面 上 ,没有 足够 的 知识 适合 于 计算 机 推理 。 俞 士 汉 等 初步 
建成 了 “现代 汉语 语法 电子 词典 ”, 提 出 了 现代 汉语 词语 分 类 体系 ,但 只 服务 于 语言 信息 处 理 。 

3. 自然 语言 理解 的 相关 理论 

1) 国外 研究 现状 

国外 关于 自然 语言 理解 方面 的 研究 起 步 较 早 ,一 些 卓 有 成 就 的 语言 学 家 、 迎 辑 学 家 和 心 
理学 家 都 在 自然 语言 理解 的 语法 .句法 及 语义 分 析 方面 提出 了 一 些 较为 系统 的 理论 和 方法 。 
下 面 介绍 一 些 比较 有 影响 的 理论 。 

(OD 形式 语言 

1957 年 美国 语言 学 家 Chomsky 提出 了 形式 语言 理论 ,将 语言 看 成 是 一 个 抽象 的 符号 
系统 ,定义 为 按 一 定 的 规律 构成 的 句子 或 符号 串 的 有 限 的 或 无 限 的 集合 , 记 为 L, 一 种 语言 
的 文法 G 是 一 种 格式 ,用 来 说 明 什么 句子 在 该 语言 中 是 合法 的 ,并 指明 把 词组 合成 短语 和 
子 句 的 规则 , 即 G 定义 为 : 

G=(T,N,S,P) 

其 中 ,TT 是 终结 符 的 集合 ,终结 符 是 指 被 定义 的 那个 语言 的 词 (或 符号 ); N 是 非 终 结 符 
的 集合 ,这 些 符号 不 能 出 现在 最 终生 成 的 句子 中 ,是 专门 用 来 描述 语法 的 ; S 是 起 始 符 , 它 
是 集合 N 中 的 一 个 成 员 ; P 是 一 个 产生 式 规则 集 。 

以 英语 中 一 个 很 小 的 子 集 为 例 ,具有 如 下 的 文法 : 

G- (T, N, S, P) 

T= (the, dog, cat, runs, …} 

N- (S, NP, VP) 

S- (S) 


产生 式 规则 集 P 的 规则 : 


S- NP* VP; N= dog; NP= the * N; N=cat; VP = runs 
根据 这 一 简单 文法 ,能 生成 以 下 两 个 英语 句子 : 


The cat runs. 

The dog runs. 

Chomsky 希望 ,如 果 能 找到 一 种 描述 英语 的 形式 文法 ,人 们 就 可 以 根据 它 使 用 计算 机 
“理解 ”英语 。 但 是 到 目前 为 止 ,这 一 目标 仍然 没有 实现 。 从 自然 语言 处 理 的 观点 来 看 ,形式 
地 定义 一 种 语言 的 意义 在 于 : 如 果 系 统 要 处 理 句 子 的 结构 是 已 知 的 ,那么 就 比较 容易 写 出 
一 种 分 析 算 法 来 对 输入 语句 进行 句法 分 析 。 

(2) 转移 生成 语法 

1957 年 Chomsky 曾 提 出 了 转换 生成 语法 (Transformational Generative Grammar) ,将 
句子 的 结构 分 为 深层 结构 和 表层 结构 两 个 层次 ,并 根据 形式 文法 中 所 使 用 的 规则 集 不 同 将 
语法 分 为 四 种 类 型 : 无 约束 短语 结构 (0 型 语法 ); 上 下 文 有 关 语 法 (1 型 语法 ); 上 下 文 无 关 
语法 (2 型 语法 ); 正则 语法 (3 型 语法 )。 一 些 表达 相同 意义 的 句子 尽管 表层 结构 不 同 , 但 其 
深层 结构 却 是 相同 的 。 例 如 : 

The car will hit that tree soon. 

That tree will be hit by the car soon. 

转换 生成 语法 的 原理 是 通过 上 下 文 无 关 语法 生成 句子 的 深层 结构 (形式 语言 ) ,然后 应 
用 转换 规则 再 将 深层 结构 转换 为 表层 结构 。 如 果 要 进行 句子 分 析 , 则 首先 要 逆向 应 用 转换 
规则 将 表层 结构 转换 为 深层 结构 ,之 后 再 应 用 上 下 文 无 关 语 法 进行 分 析 。 

Chomsky 在 语法 中 完全 抛 开 了 语义 、 语 用 和 语 境 方 面 的 知识 ,只 局 限于 一 种 形式 化 的 
机 制 ,因此 很 难 完全 确切 地 描述 自然 语言 。 

(3) 扩展 转移 网 络 

1970 年 美国 的 Woods 根据 Chomsky 创建 的 转换 生成 语法 ,设计 了 扩展 转移 网 络 
(Augmented Transition Network, ATN). 

转移 网 络 是 自然 语言 中 常用 的 自动 机 ,每 个 转移 网 络 由 一 个 状态 集 和 一 个 标号 集 组 成 ， 
其 构成 方法 可 以 表示 为 : 

状态 Xx 标号 二 状态 

其 含义 是 给 定 当前 状态 和 当前 标号 后 ,可 以 求 得 下 一 步 状 态 。 在 识别 语言 时 ,状态 是 指 
当前 的 句子 分 析 到 了 哪 一 步 ,标号 指 的 是 当前 面临 的 语法 成 分 是 什么 。 

HA Qo.Q1.Q2 和 Q3 四 个 状态 。Q0 表示 语句 分 析 开 始 ; QI 表示 主语 分 析 完 毕 ; Q2 
表示 谓语 分 析 完 毕 ; Q3 表示 全 句 分 析 完 毕 。 又 有 NP vP NP 
NP 和 VP 两 个 标号 。 图 9. 2 所 示 是 一 个 简单 的 转 © -@ © 
移 网 络 ,该 网 络 可 用 来 分 析 许多 简单 语句 ,例如 : 图 9. 2 一 个 简单 的 转移 网 络 

Mary finished the job. 

Tom plays basketball. 

自然 语言 中 的 句子 可 以 是 非常 复杂 的 ,如 果 要 考虑 到 句子 结构 的 各 种 可 能 性 , 则 转移 网 
络 也 将 变 得 非常 复杂 。 为 了 降低 复杂 度 , 人 们 研究 如 何 把 转移 网 络 模块 化 ,并 尽 可 能 分 成 层 
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次 结构 ,为 此 提出 了 递归 转移 网 络 。 在 递归 转移 网 络 中 ,标号 可 以 是 简单 的 词类 ,也 可 以 是 
另 一 个 递归 转移 网 络 的 名 字 。 

但 是 递归 转移 网 络 仍 存在 严重 的 不 足 , 主 要 问题 是 在 分 析 完 一 个 句子 之 后 , 它 只 能 给 出 
关于 该 句子 是 否 符合 语法 的 信息 ,而 不 能 回答 有 关 该 句子 的 语法 结构 这 类 问题 。 原 因 在 于 
分 析 时 未 能 把 所 得 到 的 信息 记录 下 来 。 为 此 , Woods 把 递归 转移 网 络 加 以 扩充 ,成 为 
ATN. ATN 用 一 组 寄存 器 保存 语法 分 析 信 息 。 它 每 走 一 步 都 要 测试 一 下 当前 情况 并 根据 
测试 结果 决定 做 什么 动作 。 最 后 把 各 寄存 器 中 的 信息 综合 起 来 ,得 到 分 析 句 子 的 语法 结构 。 

ATN 的 弱点 在 于 其 对 句法 的 过 分 依赖 ,限制 了 对 语言 的 处 理 能 力 , 在 某 些 情况 下 效率 
很 低 。 

(4) 格 语法 

20 世纪 60 年 代 末 , 美 国语 言 学 家 Fillmore 提出 了 一 种 新 的 理论 一 一 格 语法 (case 
grammar)。 格 语法 将 自然 语言 理解 中 的 语法 和 语义 分 析 结 合 起 来 , 它 的 语法 规则 是 用 于 描 
述 语法 规律 而 不 是 语义 规律 的 ,但 规律 所 产生 的 最 终结 构 不 是 严格 表示 语法 结构 而 是 描述 
语义 关系 。 

按照 Fillmore 的 观点 ,一 个 句子 可 以 由 情态 和 命题 两 部 分 组 成 。 如 果 用 S 表示 句子 
(sentence) ,用 M 表示 情态 (modality) ,用 P 表示 命题 (proposition) 则 : 

S=M+P 

命题 P 是 动词 与 其 相关 的 格 。 如 果 用 V 表示 动词 ,用 C,C;,…,C, 表示 各 种 格 , 则 可 
写 为 ; 

P 一 V 十 Ci 十 C: 十 … 十 C。 

而 每 一 个 格 又 可 以 表示 为 一 个 格 标 ( 记 为 K) 再 加 上 一 个 名 词 短语 。 若 用 Ci 表示 格 , 则 
可 写 为 ， 

Ci 一 KK 十 NP 

Kp K 可 以 是 介词 ,也 可 以 为 空 。 

情态 M 是 一 系列 从 整体 上 描述 句子 各 方面 的 术语 ,主要 是 指 时 态 ,、 体 、 形 式 、 方 式 和 时 
间 等 ,可 定义 为 ， 

M- Tense. Aspect. Form. Mood. Essence. Modal. Manner. Time 


其 中 


Tense: present, past, future 

Aspect: perfect, imperfect 

Form: simple, emphatic, progressive 

Mood: declarative, interrogative, imperative 
Essence: positive, negative, indeterminate 
Modal: may, can, must 

Manner: adverbial 

Time: adverbial 


(5) 概念 从 属 理论 

1973 年 美国 的 Schank 提出 了 概念 从 属 (Conceptual Dependency Theory. CD 理论) 理 
论 ,这 种 理论 与 格 语法 有 相似 之 处 ,如 句子 意义 的 表达 以 行为 (action) 为 中 心 ,并 包括 一 些 
与 其 相关 的 句子 其 他 词 的 格 。 但 两 者 之 间 也 有 明显 的 区 别 ,CD 理论 中 句子 的 行为 不 是 由 


动词 表示 ,而 是 由 原 语 行为 集 表 示 ,其 中 每 一 个 原 语 是 包含 动词 意义 的 概念 。 换 言 之 ,行为 
是 由 动词 的 概念 表示 ,而 不 是 由 动词 本 身 表示 。 

让 我 们 看 两 个 例句 : 

John gave the vase to Mary. 

Mary received the vase from John. 

以 上 两 句 尽 管 侧重 点 不 同 、 所 用 的 动词 不 同 ,但 基本 概念 是 相同 的 ,都 是 关于 所 有 权 的 
转移 。 但 在 格 语法 中 ,这 两 个 句子 的 内 部 存储 将 采用 完全 不 同 的 形式 。CD 理论 指出 物体 
所 有 权 转 移 是 原 语 行动 ATRANS。 因 此 ,上 述 第 一 句 可 表示 为 ， 

EVENTI 

ACTOR: John 
ACTION: ATRANS 


OBJECT: the vase 
DIRECTION: FROM: John TO: Mary 


第 二 句 可 表示 为 : 


EVENT2 
ACTOR: Mary 
ACTION: ATRANS 
OBJECT: the vase 
DIRECTION: FROM: John TO: Mary 
EVENTI 和 EVENT2 分 别 表示 了 两 句 的 意义 ,两 者 的 差异 仅 在 于 动作 的 完成 者 。 
由 于 运用 CD 理论 理解 自然 语言 时 ,大 量 使 用 到 语义 知识 ,使 得 对 纯粹 语法 分 析 有 二 义 
性 的 句子 也 能 赋 以 唯一 的 解释 。 但 另 一 方面 ,要 很 好 地 完成 分 析 工 作 又 需要 庞大 的 语义 知 
识 库 。 
(6) 境况 语义 学 
1983 年 美国 的 Barwise 和 Perry 建立 了 境况 语义 学 (situation semantics) 。 境 况 语义 学 
是 一 种 语义 和 语 用 相 结合 的 语义 分 析 理 论 。 
例如 : Tom saw a girl with a telescope. 
我 们 既 可 以 理解 成 “汤姆 用 一 个 望远镜 看 一 个 姑娘 ”, 也 可 以 理解 成 “汤姆 看 到 一 个 拿 着 
一 个 望远镜 的 姑娘 ”。 要 对 这 句 话 作出 正确 的 判断 ,只 有 根据 上 下 文 信息 和 特定 的 语言 
环境 。 
境况 语义 学 的 任务 ,就 是 要 从 语言 环境 中 获取 在 语法 、 语 义 分 析 中 无 法 得 到 的 信息 ,更 
好 地 完成 自然 语言 理解 。 
(7) 语料库 语言 学 
近年 来 ,在 国际 上 掀起 了 语料库 语言 学 (Corpus Linguistics) 的 研究 热潮 。 语料库 语言 
学 研究 机 器 可 读 的 自然 语言 文本 的 采集 存储、 检索 ` 统 计 、` 语 法 标注 、 句 法 -语义 分 析 以 及 有 具 
有 上 述 功能 的 语料库 在 语言 定量 分 析 、 词 ( 字 ) 典 编撰 ,作品 风格 分 析 、 自 然 语 言 理解 和 机 器 
翻译 等 领域 的 应 用 。 
2) 国内 研究 现状 
HNC 理论 是 关于 自然 语言 理解 的 一 个 理论 体系 。 它 以 概念 化 .层次 化 和 网 络 化 的 语 
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义 表 达 为 基础 ,所 以 称 之 为 概念 层次 网 络 理论 。HNC 理论 把 人 脑 认 知 结构 分 为 局 部 和 全 
局 两 类 联想 脉络 ,认为 对 联想 脉络 的 表达 是 语言 深层 ( 即 语 言 的 语义 层面 ) 的 根本 问题 。 

HNC 理论 的 中 心目 标 是 建立 自然 语言 的 表示 和 处 理 模 式 , 使 计算 机 能 够 模拟 人 脑 的 
语言 感知 功能 。 该 理论 使 自然 语言 理解 获得 了 突破 性 的 进展 , 它 所 蕴涵 的 精深 丰富 的 思想 
对 人 工 智 能 .语言 学 .计算 机 科学 和 认 知 科学 等 都 具有 重要 的 理论 和 应 用 价值 ,对 中 文 信息 
处 理 和 汉语 研究 尤其 具有 实际 意义 。 

HNC 理论 完全 摆脱 了 现 有 这 套 语法 学 的 束缚 ,而 从 语言 的 深层 入 手 ,以 语义 表达 为 基 
础 ,为 汉语 理解 开辟 了 一 条 新 路 。HNC 理论 提出 了 可 供 工 程 实现 的 完整 的 自然 语言 理解 
的 理论 框架 , 它 是 一 个 面向 整个 自然 语言 理解 的 强大 而 完备 的 语义 描述 体系 ,包括 语句 处 
理 、 句 群 处 理 , 篇 章 处 理 、 短 时 记忆 向 长 时 记忆 扩展 处 理 , 文 本 自动 学 习 处 理 。HNC 理论 的 
出 发 点 就 是 运用 两 类 联想 脉络 帮助 计算 机 理解 自然 语言 。 自 然 语言 的 词汇 是 用 来 表达 概念 
的 ,因此 HNC 建立 的 词汇 层面 的 局 部 联想 脉络 体现 为 一 个 概念 表达 体系 。 概 念 分 为 抽象 
概念 与 具体 概念 。HNC 理论 的 概念 表达 体系 侧重 于 抽象 概念 的 表达 ,对 具体 概念 采取 挂 
靠近 似 表达 方法 。HNC 理论 认为 应 该 从 多 元 性 表现 和 内 涵 两 个 方面 描述 概念 。 

HNC 利用 五 元 组 表达 抽象 概念 的 多 元 性 ,对 抽象 概念 的 内 涵 采 用 网 络 层 次 符号 表示 。 
其 网 络 层次 符号 包含 三 大 语义 网 络 : 基 元 概念 语义 网 络 、 基 本 概念 语义 网 络 和 逮 辑 概念 语 
义 网 络 。HNC 的 五 元 组 符号 和 三 大 语义 网 络 的 层次 符号 组 合 起 来 就 可 完成 抽象 概念 的 完 
整 表达 ,从 而 为 计算 机 理解 自然 语言 的 语义 提供 了 有 力 手段 。 

自然 语言 理解 大 致 可 分 为 机 器 翻译 (Machine Translation. MT) .语义 理解 及 人 机 会 话 
几 个 方面 。 其 中 机 器 翻译 是 利用 计算 机 把 一 种 自然 语言 转变 成 另 一 种 自然 语言 的 过 程 。 智 
能 搜索 引擎 在 这 一 领域 的 研究 将 使 得 用 户 可 以 使 用 母语 搜索 非 母 语 的 网 页 ,并 以 母语 浏览 
搜索 结果 。 语 义理 解 通过 将 语言 学 的 研究 成 果 和 计算 机 技术 结合 在 一 起 ,实现 对 词语 在 语 
义 层 次 上 的 理解 。 人 机 会 话 技术 可 以 为 计算 机 提供 下 一 代 的 人 机 交互 接口 ,实现 从 文字 接 
口 .图 形 接 口 到 自然 语言 接口 的 革命 ,同时 在 家 用 电器 的 人 性 化 设计 方面 有 着 广泛 的 应 用 前 
景 ,其 技术 内 涵 主 要 包括 语音 识别 和 语音 合成 两 个 核心 部 分 。 

在 语义 理解 的 整个 过 程 中 ,智能 分 词 技 术 是 最 初 的 一 个 环节 , 它 将 组 成 语句 的 核心 
词 提 炼 出 来 供 语义 分 析 模 块 使 用 。 在 分 词 过 程 中 ,如 何 能 够 恰当 地 提供 足够 的 词 供 分 析 
程序 处 理 ,并 且 过 滤 掉 宛 余 信息 ,这 是 后 期 语义 分 析 的 质量 和 速度 的 重要 前 提 。 尤 里 卡 
的 智能 分 词 避免 了 传统 分 词 技术 在 拆 分 时 产生 的 歧义 组 合 。 从 而 为 语义 理解 的 处 理 提 
供 了 良好 的 原始 素材 。 同 时 ,在 分 词 过 程 中 ,知识 库 当中 的 同义词 会 被 逐个 匹配 并 同时 
提交 给 语义 理解 模块 使 用 ,这 样 处 理 过 的 句子 不 仅 提供 了 原始 的 句 型 ,还 同时 搭载 了 语 
句 的 概念 部 分 。 

4. 自然 语言 理解 的 关键 技术 

迄今 为 止 , 对 自然 语言 理解 尚 无 统一 和 权威 的 定义 。 按 照 考 虑 问题 的 角度 不 同 而 有 不 
同 的 解释 。 从 微观 上 讲 ,语言 理解 是 指 从 自然 语言 到 机 器 (计算 机 系统 ) 内 部 之 间 的 一 种 映 
射 ; 从 宏观 上 看 ,自然 语言 理解 是 指 机 器 能 够 执行 人 类 所 期 望 的 某 些 语言 功能 。 这 些 功能 
包括 : 

(1) 回答 有 关 提问 ; 

(2) 提取 材料 摘要 ; 


(3) 不 同 词 语 叙述 ， 

(4) 不 同 语言 翻译 。 

然而 ,自然 语言 理解 却 是 一 项 十 分 艰难 的 任务 。 即 使 建立 一 个 只 能 理解 片 言 断 语 的 计 
算 机 系统 ,也 是 很 不 容易 的 。 这 中 间 有 大 量 极 为 复杂 的 编码 和 解码 问题 。 一 个 能 够 理解 自 
然 语 言 的 计算 机 系统 就 像 一 个 人 那样 需要 上 下 文 知识 以 及 根据 这 些 知识 和 信息 进行 推理 的 
过 程 。 自 然 语言 不 仅 存在 语义 .语法 和 语音 问题 ,而 且 还 存在 模糊 性 等 问题 。 具 体 地 ,自然 
语言 理解 的 困难 是 由 以 下 三 个 因素 引起 的 , 即 : 

CD 目标 表示 的 复杂 性 ; 

(2) 映射 类 型 的 多 样 性 ; 

(3) 源 表达 中 各 元 素 间 交 互 程度 的 差异 性 。 

近 些 年 来 ,由 于 以 下 因素 的 推动 , 即 : 

。 计算 机 技术 的 飞速 发 展 。 

。 可 用 的 语料库 数量 的 不 断 增 大 。 

。 经 济 发 展 对 大 量 实用 处 理 系统 的 迫切 需要 ,使 语料库 语言 学 的 研究 得 到 了 迅速 的 

发 展 。 

从 20 世纪 90 年 代 以 来 历届 重要 的 国际 会 议 ,包括 COLING、ACL 和 TMI 等 ,每 届 都 
有 许多 新 的 研究 成 果 出 现 。 而 对 汉语 语料库 语言 学 的 研究 ,近年 来 也 有 许多 研究 成 果 , 如 自 
动词 性 标注 、 自 动 分 词 研究 ,句法 功能 标注 ,语义 信息 标注 、 汉 语音 字 转 换 和 汉语 语音 识别 
等 。 但 总 的 说 来 ,发 展 速度 并 不 是 很 快 ,规模 也 不 太 大 。 

5. 自然 语言 理解 技术 的 应 用 

采用 自然 语言 理解 技术 的 智能 信息 服务 创造 了 电子 服务 新 概念 。 它 首先 对 提出 的 问题 
进行 断 记 和 断 句 ,然后 根据 系统 预先 设置 的 语义 规则 理解 整 句 话 的 意思 ,形成 相应 的 查询 条 
件 , 在 现 有 数据 库 进 行 快速 而 准确 查询 ,给 出 用 户 需要 的 答案 或 者 提示 用 户 进一步 输入 有 关 
信息 。 由 于 自然 语言 理解 技术 发 展 的 阶段 性 ,目前 还 做 不 到 像 人 一 样 具有 足够 智能 .通用 的 
智能 理解 ,但 是 只 要 划 定 具体 的 领域 (领域 范围 可 大 可 小 ,如 天 气 、 体 育 等 简单 信息 查询 ,也 
可 以 是 交友 购物、 保健 等 宽泛 的 智能 聊天 或 咨询 等 ) ,性 能 先进 的 自然 语言 理解 技术 都 能 量 
身 定做 出 具有 足够 实用 性 的 智能 信息 服务 系统 ,自动 理解 客户 用 自然 语言 发 出 的 相关 领域 
的 问题 ,使 网 络 交流 更 人 性 化 ,信息 查询 更 方便 ,快速 和 准确 ,从 而 获得 高 质量 的 电子 服务 。 

目前 ,自然 语言 理解 的 应 用 主要 涉及 以 下 方面 : 

1) 智能 短信 服务 

短信 服务 商 可 根据 具体 应 用 领域 定制 一 系列 的 智能 短信 业务 ,如 旅游 交通 、 金 融 证 券 、 
交友 网 聚 , 智 力 竞 猿 等 受 欢迎 的 服务 ,让 服务 商 和 用 户 都 抛 开 厚重 的 手册 和 复杂 的 编码 , 代 
之 以 口语 化 的 自然 语言 通过 短信 输入 ,短信 系统 能 迅速 理解 用 户 的 意图 ,提供 准确 、 周 到 的 
信息 和 服务 。 这 样 的 服务 将 直接 刺激 用 户 使 用 短信 服务 的 兴趣 和 频率 ,并 为 短信 服务 商 和 
电信 运营 商 开发 更 新 的 、 更 具 吸引 力 的 业务 创造 良好 条 件 。 

2) 智能 聊天 机 器 人 

目前 流行 于 各 大 网 站 、 各 类 即时 通信 软件 的 聊天 机 器 人 还 没有 应 用 成 熟 的 智能 语言 
解 技术 ,仅仅 实现 了 基本 、 简 单 的 对 话 交流 \ 信 息 查询 等 功能 。 引 入 自然 语言 理解 技术 ,能 构 
建新 型 智能 聊天 机 器 人 ,通过 与 用 户 对 话 和 聊天 等 生动 、 灵 活 的 形式 ,了 解 用 户 需 求 , 利 用 智 
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能 搜索 技术 采集 和 分 析 互 联网 和 知识 库 的 信息 内 容 , 进 行 自 动 过 滤 和 筛选 ,并 获取 有 效 内 
容 , 对 相关 信息 内 容 进行 智能 化 编辑 整理 ,最 终 返 回 给 用 户 ; 这 样 , 聊 天 机 器 人 的 服务 将 会 
更 易 用 和 实用 ,能 够 实现 功能 强大 而 实用 的 智能 聊天 、 智 能 游戏 \ 个 性 化 的 新 闻 定制 .智能 网 
络 搜 索 、 智 能 电子 商务 等 ,给 用 户 以 极 大 的 方便 和 无 限 的 乐趣 。 

3) 智能 搜索 引擎 

普通 的 搜索 引擎 引入 中 文 自然 语言 理解 和 知识 管理 技术 ,构建 成 新 的 智能 搜索 引擎 ,能 
提供 全 新 的 信息 查询 服务 ,创造 更 综合 的 增值 服务 。 目 前 的 搜索 引擎 由 于 只 使 用 关键 词 匹 
配 技术 ,没有 引入 自然 语言 理解 ,每 次 搜索 时 只 是 按照 关键 词 进行 匹配 ,返回 大 量 信息 和 链接 ， 
其 中 很 大 部 分 是 垃圾 信息 或 不 是 用 户 所 需 的 信息 ,往往 导致 用 户 无 所 适 从 。 而 门户 网 站 或 者 
专业 网 站 虽然 对 信息 进行 很 好 的 分 类 ,但 是 首先 要 用 户 记 住 网 址 ,还 要 懂得 分 类 的 标准 ,然后 
逐 层 点 击 相应 的 分 类 链接 ,才能 获得 所 需 信息 。 这 样 的 信息 分 类 查询 给 信息 服务 商 带 来 很 大 
的 工作 量 , 服 务 成 本 和 进入 门槛 显著 提高 ,而 用 户 使 用 起 来 也 不 方便 ,导致 用 户 的 流失 。 基 于 
内 容 的 智能 搜索 引擎 是 依靠 语义 网 络 、 汉 语 分 词句 法 分 析 、 处 理 同义词 等 自然 语言 理解 技术 
最 大 程度 地 了 解 用 户 的 信息 需求 ,获得 更 高 的 易 用 性 、 更 准确 的 范围 定位 、 更 智能 的 搜索 结果 。 

运用 先进 的 自然 语言 理解 技术 ,智能 搜索 引擎 可 以 识别 并 回答 用 户 的 问题 ,使 用 户 摆脱 
传统 搜索 引擎 基于 关键 字 的 束缚 ,指引 用 户 更 有 效 、 更 快捷 地 寻找 到 所 需 信息 ,同时 为 用 户 
提供 相关 的 、 有 参考 价值 的 其 他 内 容 。 由 于 这 些 特 点 ,使 得 智能 搜索 技术 能 够 在 互联 网 信息 
检索 的 各 个 方面 得 到 广泛 应 用 。 它 可 以 为 大 型 综合 搜索 引擎 提供 后 台 支 持 ,使 之 具有 人 人 性 
化 、 交 互 性 的 特点 。 它 能 够 方便 地 实现 垂直 搜索 引擎 的 专业 类 别 内 容 搜索 ; 当然 也 可 以 为 
信息 门户 网 站 提供 方便 快捷 的 站 内 信息 搜索 服务 。 

智能 搜索 引擎 除了 在 互联 网 上 使 用 外 ,也 可 以 支持 WAP 协议 而 应 用 到 手机 上 。 其 实 
用 户 往往 在 逛街 .旅游 .交通 等 室外 环境 、 移 动 状态 时 更 需要 随时 查询 信息 。 手 机 是 很 好 的 
查询 工具 ,但 是 手机 的 屏幕 小 .内 存 少 .带宽 窗 , 不 适合 接收 和 保存 大 量 信息 , 更 不 可 能 翻 看 
数 以 百 计 千 计 的 信息 。 传 统 的 基于 关键 词 搜索 或 者 分 类 信息 查询 模式 都 存在 一 定 的 缺陷 ， 
特别 不 适合 在 手机 上 使 用 。 而 基于 自然 语言 理解 技术 的 智能 搜索 引擎 ,就 能 很 好 地 为 手机 
用 户 提供 随时 、 随 地 、 随 心 的 信息 服务 。 

人 们 呼唤 自然 语言 ,因为 它 是 人 机 交互 的 最 高 境界 ,是 人 机 交互 最 自然 的 方式 。 有 理由 
相信 ,在 不 远 的 将 来 任何 人 任何 时 刻 、 在 任何 场所 和 任何 设备 上 ,都 可 以 通过 自然 语言 方便 
地 浏览 网 页 ,互相 传递 信息 ,实现 随时 随地 沟通 交流 的 目标 。 


9.1.3 Web 挖掘 过 程 


与 结构 化 数据 相 比 , Web 数据 是 异 构 的 、 非 结构 化 或 半 结 构 化 ,动态 的 ,并 且 容 易 造 成 
混淆 ,所 以 很 难 直接 进行 Web 挖掘 ,必须 经 过 必要 的 预 处 理 。 

典型 的 Web 挖掘 过 程 可 概括 如 下 : 

1. Web 资源 搜集 

旨 在 获取 Web 信息 ,值得 注意 的 是 有 时 信息 资源 不 仅 限 于 在 线 Web 文档 ,还 包括 电子 
邮件 .电子 文档 .新闻 组 或 者 网 站 日 志 甚至 是 通过 Web 形成 的 交易 数据 库 的 数据 。 


2. 预 处 理 

从 获取 的 Web 资源 中 剔除 无 用 信息 并 进行 必要 的 处 理 , 例 如 从 Web 中 自动 删除 广告 
链接 .多余 格 式 标记 、 自 动 识别 段落 或 字段 并 组 织 成 规整 的 逻辑 形式 甚至 是 关系 表 。 

Web 文档 的 内 容 是 人 类 所 使 用 的 自然 语言 ,计算 机 很 难 理解 其 语义 。 这 些 特 殊 性 使 
得 现 有 的 数据 挖掘 技术 无 法 直接 应 用 于 Web 挖掘 。 需 要 对 Web 文档 进行 分 析 , 抽 取代 
表 其 特征 的 元 数据 。 这 些 特征 可 以 用 结构 化 的 形式 保存 ,作为 Web 文档 的 中 间 表 示 
形式 。 

在 对 Web 文档 进行 特征 提取 前 ,需要 先进 行 预 处 理 。 对 于 英文 需 进行 词 干 化 
Cstemming) 处 理 , 中 文 的 情况 则 不 同 , 因 为 中 文 的 词 与 词 之 间 没 有 固有 的 间隔 符 ( 空 格 ), 需 
要 进行 分 词 。 所 谓 分 词 是 在 中 文 文本 的 各 词 条 间 加 入 分 隔 符 ,将 中 文 文本 的 连续 字 流 形式 
转化 为 离散 的 词 流 形式 。 引 入 分 词 主要 是 为 后 继 的 处 理 做 准备 。 自 20 世纪 80 年 代 初 提出 
自动 分 词 以 来 ,已 提出 了 许多 分 词 方法 ,目前 采用 的 分 词 方法 主要 包括 正 向 .逆向 最 大 匹配 
法 、 逐 词 遍历 法 、 最 佳 匹配 法 和 词 频 统 计 法 等 ,此 外 还 有 二 次 扫描 法 、 邻 接 约 束 法 等 。 大 致 可 
以 归纳 为 四 类 : 第 一 类 为 基于 词典 的 机 械 分 词 算法 ; 第 二 类 为 基于 统计 的 分 词 算法 ; 第 三 
类 为 第 一 ,二 类 混合 的 分 词 算法 ; 第 四 类 为 基于 知识 的 分 词 专 家 系统 。 在 具体 应 用 中 ,需要 
根据 具体 情况 选择 不 同 的 分 词 方法 ,不 同 分 词 方法 的 正确 性 很 大 程度 上 取决 于 所 构建 的 词 
库 。 一 个 词 库 应 具有 完备 性 和 完全 人 性 两 个 方面 。 所 谓 完 备 性 ,简单 而 言 是 对 任意 一 个 字 串 ， 
总 能 按 词 库 找到 对 其 进行 切 分 的 方法 ; 所 谓 完全 性 , 则 意味 着 词 库 应 当 包 含 所 有 的 词 。 建 
立 一 个 同时 满足 上 述 两 个 要 求 的 词 库 具有 很 大 难度 。 而 对 于 某 一 系统 而 言 ,可 能 只 用 到 其 
中 的 一 部 分 ,因此 在 构造 词典 时 需要 量力 而 行 ,在 完备 和 效率 之 间 折 里。 

3. 特征 抽取 

提取 Web 文本 中 的 特征 词 ,并 将 抽取 出 的 特征 词 量化 以 表示 Web 文本 信息 。 通 常 根 
据 某 一 特征 评估 函数 计算 各 个 特征 的 评分 值 ,然后 按 评 分 值 对 这 些 特征 排序 ,选取 若干 个 评 
分 值 最 高 的 作为 特征 词 。 特 征 抽取 对 Web 文本 内 容 的 过 滤 和 分 类 、 聚 类 ,自动 摘要 以 及 用 
户 兴 趣 模式 发 现 、 知 识 发 现 等 具有 重要 作用 。 


4. 模式 发 现 
ea 
自动 地 发 现 模式 ,Web 挖掘 所 产生 的 知识 模式 , 既 可 以 是 对 各 个 


文档 含义 的 概括 ,也 可 以 是 有 关 整个 文档 集合 的 结构 或 趋势 描述 。 Web 资 源 收集 
5. 模式 评价 
验证 解释 上 一 步骤 产生 的 模式 , 既 可 以 机 器 自动 完成 ,也 可 以 与 m 

分 析 人 员 一 起 完成 。 " 特征 抽取 和 缩减 
最 后 对 挖掘 出 的 模式 进行 质量 评价 , 若 评价 的 结果 满足 一 定 的 要 

求 , 则 存储 这 一 知识 模式 ,否则 返回 到 前 面 的 某 一 步骤 ,分 析 改 进 后 进 模式 发 现 

行 新 一 轮 的 挖 气 。 i 
值得 注意 的 是 ,Web 挖掘 作为 一 个 完整 的 过 程 ,在 挖掘 之 前 的 信息 模式 评价 


检索 (Information Retrieval, IR) 和 信息 抽取 (Information Extraction. 
IE) 相 当 重要 。IR 旨 在 获取 相关 的 Web 文档 ; IE REM Web 文档 中 一 

获取 所 需 信 息 , 对 文档 的 结构 和 所 表达 的 含义 感 兴趣 ,其 重要 任务 之 ”图 9.3 Web 挖掘 的 
一 是 对 Web 文档 进行 组 织 、 整 理 并 建立 适当 索引 。 一 般 过 程 
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原理 及 应 用 


IR fi IE 的 研究 由 来 已 久 , 随 着 Web 技术 的 发 展 ,基于 Web 的 信息 检索 和 抽取 获得 更 
多 关注 。 由 于 Web 数量 庞大 且 动 态 变化 ,以 原来 手工 方式 收集 早已 力不从心 ,目前 采用 自 
动 化 、 半 自动 化 的 方法 实现 Web 信息 检索 和 抽取 。 

综 上 所 述 , Web 挖掘 的 一 般 过 程 如 图 9.3 所 示 。 


9.2 Web 文档 抽取 和 表示 


Web 挖掘 与 传统 的 数据 挖掘 相 比 具有 许多 独特 之 处 。 首先, Web 挖掘 的 对 象 是 大 量 、 
异 质 分 布 的 Web。 我 们 认为 ,以 Web 作为 中 间 件 对 数据 ( 仓 ) 库 进行 挖掘 ,以 及 对 Web 服 
务 器 上 的 日 志 、 用 户 信息 等 挖掘 , 仍 属 于 传统 数据 挖掘 的 范畴 ; 其 次 , Web 在 逻辑 上 是 一 个 
由 文档 结 点 和 超 链接 构成 的 图 ,因此 Web 挖掘 所 得 到 的 模式 可 能 是 关于 Web 内 容 的 ,也 可 
能 是 关于 Web 结构 的 。 此 外 ,由 于 Web 本 身 是 半 结 构 化 或 非 结构 化 的 , 且 缺 乏 机 器 可 理解 
的 语义 ,而 数据 挖掘 的 对 象 局 限于 数据 ( 仓 ) 库 中 的 结构 化 数据 ,并 利用 关系 表 等 存储 结构 发 
现 知识 ,因此 有 些 数据 挖掘 技术 并 不 适用 于 Web 挖掘 ,即使 可 用 也 需要 建立 在 Web 预 处 理 
的 基础 上 。 这 样 ,开发 新 的 Web 挖掘 技术 ,以 及 对 Web 进行 预 处 理 以 获取 关于 Web 文档 
的 特征 表示 是 Web 挖掘 研究 的 重点 。 


9.2.1 Web 文档 抽取 


Web 文档 抽取 是 将 半 结 构 化 或 非 结 构 化 Web 按照 一 定 的 需求 抽取 成 结构 化 数据 。 例 
如 互联 网 是 一 个 巨大 的 资源 ,Internet 上 同一 主题 的 信息 通常 分 散 存放 在 不 同 网 站 ,表现 的 
形式 也 各 不 相同 , 若 能 将 这 些 信 息 收 集 在 一 起 ,采用 结构 化 形式 储存 是 十 分 有 意义 的 。 

实现 Web 文档 抽取 的 方法 主要 包括 两 种 ,一 种 比较 简单 的 是 采用 模板 , 另 一 种 是 不 依 
赖 网 页 的 网 页 库 结构 化 抽取 。 

模板 方式 是 事先 对 特定 的 Web 配置 模板 ,设置 需要 的 信息 ,可 以 针对 有 限 多 个 网 站 的 
信息 进行 精确 采集 。 其 优势 是 简单 、 精 确 、 技 术 难 度 低 、 便 于 快速 部 署 ; 缺点 是 需要 针对 每 
个 信息 源 的 网 站 模板 单独 设置 ,在 信息 来 源 多 样 的 情况 下 维护 量 巨 大 ,所 以 适合 少量 信息 源 
的 情况 ,不 是 搜索 引擎 级 的 应 用 ,很 难 满足 用 户 查 全 率 的 要 求 ; 网 页 库 结构 化 抽取 方法 是 采 
用 Web 结构 分 析 与 智能 结 点 分 析 转 换 的 方法 ,自动 抽取 结构 化 的 数据 。 其 优势 是 可 对 任意 
正常 的 Web 进行 抽取 ,不 用 对 具体 网 站 事先 生成 模板 ,对 每 个 Web 自动 实时 地 生成 抽取 规 
则 ,完全 不 需要 人 工 干 预 ,因此 抽取 准确 率 高 ,不 是 机 械 地 匹配 ,准确 率 达 到 98% 以 上 。 由 
于 采用 页 面 的 智能 分 析 技术 ,去 除了 垃圾 块 ,降低 分 析 的 压力 ,使 处 理 速 度 大 大 提高 ,通用 性 
较 好 ,易于 维护 。 一 般 情况 下 , 非 专 业 人 员 经 过 简单 培训 即 可 操作 ; 缺点 是 技术 难度 大 ,前 
期 研发 成 本 高 .周期 长 ,适合 网 页 库 级 别 结构 化 数据 采集 和 搜索 的 高 端 应 用 。 


9.2.2 Web 文档 表示 


Web 挖掘 首要 解决 Web 异 构 数据 的 集成 和 查询 问题 ,因此 需要 一 个 模型 清晰 地 描述 
Web。 针 对 Web 半 结 构 化 的 特点 ,寻找 一 个 半 结 构 化 的 数据 模型 是 解决 问题 的 关键 。 除 了 


定义 一 个 半 结 构 化 数据 模型 外 ,还 需要 一 种 半 结 构 化 模型 抽取 技术 , 即 自动 地 从 现 有 数据 抽 
取 半 结构 化 模型 。Web 挖掘 以 半 结 构 化 模型 和 半 结 构 化 数据 模型 抽取 为 前 提 。 

基于 XML 的 新 一 代 WWW 直接 面 对 Web 数据 ,不 仅 可 以 很 好 地 兼容 原 有 的 Web 应 
用 ,而 且 可 以 更 好 地 实现 Web 数据 的 共享 和 交换 。XML 可 看 作 一 种 半 结 构 化 的 数据 模型 ， 
可 以 很 容易 地 将 XML 文档 描述 与 关系 数据 库 的 属性 一 一 对 应 起 来 ,实施 精确 地 查询 与 模 
型 抽取 。 

Web 文 档 表 示 常 用 的 模型 是 布尔 模型 .概率 模型 和 向 量 空间 模型 (Vector Space 
Model,VSMD) 等 。 其 中 ,向 量 空间 模型 在 一 般 的 Web 挖掘 中 最 常用 。 

1. 布尔 模型 

采用 布尔 表达 式 对 Web 文档 进行 标识 。 布 尔 模型 在 传统 的 信息 检索 中 有 着 广泛 应 用 
通过 与 用 户 给 出 的 检索 式 进 行 逻辑 比较 检索 文档 ,本 质 上 是 一 种 基于 关键 词 的 匹配 。 在 标 
准 的 布尔 模型 中 ,Web 文档 表示 为 DOW a ,Waa，…,W), 其 中 为 特征 项 的 个 数 ,Wi 的 值 
为 0 或 1, 分 别 表示 特征 项 k 在 文档 i 中 是 否 出 现 

2. 概率 模型 

概率 模型 考虑 词 与 词 的 相关 性 ,把 Web 文档 集合 中 的 对 象 分 为 相关 的 和 无 关 的 。 基 于 
概率 论 ,通过 对 词 赋予 某 一 概率 值 表示 其 在 相关 文档 和 无 关 文 档 出 现 的 概率 ,然后 计算 文档 
之 间 的 相关 概率 ,系统 依据 词 概率 做 出 决策 。 

概率 模型 有 多 种 形式 ,常见 的 是 第 二 概率 模型 ,其 基本 思想 是 词 的 概率 一 般 是 重复 若干 
次 相关 性 计算 ,每 重复 一 次 ,就 由 用 户 对 检 出 文档 进行 人 工 判 断 。 然 后 利用 这 种 反馈 信息 ， 
根据 词 在 相关 文档 集合 和 无 关 文 档 集 合 的 分 布 计算 其 相关 概率 。 该 模型 中 , 词 的 权 值 计算 
JO. D; 


log e = (9.1) 


其 中 ,p 和 jp 分别 表 示 某 词 在 相关 文档 集合 和 无 关 文 档 集合 中 出 现 的 概率 。 某 一 文档 

的 权 值 (决定 其 排序 的 位 置 ) 则 是 它 所 含 标 引 词 的 权 值 之 和 ,因此 文档 于 用 户 查询 相关 概率 
可 定义 为 : 

StQ,D) = » EA] (9.2) 


pi(1— 

概率 模型 的 主要 优点 体现 在 : 

。 采用 严格 的 数学 理论 为 依据 实现 匹配 

。 采用 相关 反馈 原理 

主要 缺点 包括 : 

。 增加 存储 和 计算 的 开销 

。 参数 估计 难度 较 大 

3. 向 量 空间 模型 

向 量 空间 模型 于 20 世纪 60 年 代 末 由 Gerard Salton 等 提出 , 它 是 一 个 统计 模型 。 该 模 
型 以 特征 项 作为 Web 文档 表示 的 基本 单位 。 在 向 量 空间 模型 中 , Web 文档 的 内 容 被 形式 
化 为 多 维 空间 中 的 一 个 点 ,表示 为 向 量 的 形式 , 正 是 因为 把 Web 文档 以 向 量 的 形式 映射 到 
实数 域 , 极 大 地 提高 了 Web 文档 的 可 计算 性 和 可 操作 性 。 
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定义 9.1 文档 (document) 

泛 指 一 般 的 文献 或 文献 中 的 片段 (段落 、 子 句 组 或 句子 ) ,一 般 指 一 篇 文章 。 

定义 9.2 项 (term) 

当 文档 的 内 容 被 简单 地 看 成 是 其 含有 的 基本 语言 单位 ( 字 、 词 .词组 或 短语 等 ) 组 成 的 集 
合 时 ,这 些 基本 的 语言 单位 统称 为 项 , 即 文档 D 可 以 用 项 集 (term list) 表 示 为 DCT, 
Ty T) HEP Ti Æ, H 1<k<n。 

定义 9.3 项 的 权重 (term weight) 

对 于 含有 个 项 的 文档 DCT T; ,…,T,), 项 T, 常 被 赋予 一 定 的 权重 W, ,表示 其 在 文 
档 中 的 重要 程度 , 即 DCT Wis Ts,Ws;…;T,,W,)。 有 时 在 特征 词 条 确定 时 , 常 简 记 
JS DOW, .W;..W,), 

定义 9.4 向 量 空间 模型 

给 定 一 个 文档 DCT Wi5 T; ,Ws;…;T,,W,), 由 于 项 T, 在 文档 中 既 可 以 重复 出 现 也 
存在 先后 次 序 的 关系 ,分 析 起 来 有 一 定 难度 。 为 了 简化 ,可 以 暂 不 考虑 T, 在 文档 中 的 先后 
顺序 并 要 求 T, 互 异 ( 即 没有 重复 )。 这 时 可 以 把 TT,T,,…,7T, 看 成 一 个 维 坐 标 ,而 W, 
Waste, Wp, 为 相应 的 坐标 值 ,因而 DOW, Wo WO EXE n HESS prp tt. pk 
DOW; ,W; WOH XC PS D 的 向 量 表示 。 

定义 9.5 文档 特征 向 量 (feature vector) 

VSM 中 每 一 文档 都 可 以 用 一 个 向 量 表示 ,向 量 由 项 ( 词 条 ) 及 其 权重 组 成 。 该 向 量 称 为 
文档 的 特征 向 量 , 特 征 向 量 是 文档 的 一 个 特征 表示 ,在 某 种 意义 上 可 以 完全 代表 文档 的 
特性 。 

VSM 中 ,每 一 文档 被 映射 成 多 维 向 量 空 间 中 的 一 个 点 ,从 而 将 文档 的 表示 和 匹配 问题 
转化 为 向 量 空间 中 向 量 的 表示 和 匹配 问题 。 

VSM 模型 的 不 足 之 处 是 将 Web 文档 表示 成 向 量 , 作 为 向 量 空间 的 一 个 点 ,然而 通过 计 
算 向 量 间 的 距离 进行 分 类 时 ,一 般 不 考虑 向 量 中 各 个 特征 间 的 关系 ,这 使 得 距离 的 计算 不 够 
准确 ,从 而 导致 分 类 精度 不 高 。 


9.3 特征 提取 


Web 挖掘 中 ,通常 以 特征 项 组 成 的 向 量 表 示 Web 文档 。 但 如 果 不 加 以 筛选 ,特征 项 的 
数量 可 能 会 成 千 上 万 ,以 Web 挖掘 中 的 Web 分 类 为 例 ,对 其 至 少 会 造成 两 方面 的 不 利 
影响 。 

(1) 许多 Web 挖掘 系统 不 能 处 理 如 此 高 维 的 特征 向 量 。 例 如 Bayes 分 类 器 ,即使 是 利 
用 了 独立 性 假设 的 Naive Bayes 方法 (这 一 假设 在 实际 中 通常 是 不 正确 的 ) 面 临 这 样 的 特征 
向 量 ,其 计算 量 也 非常 巨大 。 

(2) 特征 向 量 中 有 些 词 对 于 Web 分 类 的 作用 非常 小 ,可 以 说 绝 大 多 数 词 对 于 Web 分 
类 是 没有 什么 作用 的 ,特别 是 考虑 到 训练 文档 的 个 数 非常 有 限 。 相 反 , 过 多 的 特征 项 通常 会 
带 来 负面 影响 ,这 是 因为 特征 项 越 多 .利用 有 限 的 训练 文档 估算 特征 项 的 概率 分 布 越 不 
准确 。 

鉴于 上 述 原因 ,在 Web 分 类 之 前 先进 行 特征 提取 ,不 仅 能 减 小 Web 分 类 的 复杂 度 ,而 


且 对 于 提高 最 终 的 分 类 精度 也 会 有 所 帮助 。 

在 自动 Web 文档 特征 提取 的 算法 中 ,通常 构造 一 个 评价 函数 ,对 特征 集中 的 每 一 特征 
进行 独立 的 评估 ,这 样 每 个 特征 都 获得 一 个 评估 分 (又 称 为 权 值 ) ,然后 对 所 有 的 特征 按照 其 
权 值 大 小 排序 ,选取 预定 数目 的 最 佳 特征 作为 结果 的 特征 子 集 , 即 作为 文档 的 主题 词 提 出 。 

特征 提取 主要 用 于 排除 那些 被 认为 无 关 或 关联 性 不 大 的 特征 (如 术语 ) ,提取 可 以 代表 
Web 文 档 的 特征 ,为 后 续 的 Web 挖掘 莫 定 基础 。 目 前 ,特征 提取 方法 很 多 ,如 词 频 统计 和 
TF-IDF (Term Frequency-Inverse Document Frequency) 等 。 

1. 词 频 统 计 

词 频 统计 算法 非常 简单 , 即 合并 重复 出 现 的 特征 项 ,计算 文档 DOT, Wii Ts,W,;…; 
T, ,WW,) 中 对 应 项 T; 的 权重 W;,W; 为 项 T; 在 文档 D 中 出 现 的 次 数 ,并 通过 设 定 适当 的 权 
重 阔 值 提取 文档 特征 。 

2. TF-IDF 

TF-IDF 是 Salton 和 McGill 在 1983 年 针对 向 量 空间 信息 检索 范例 (vector space 
information retrieval paradigm) 提 出 的 特征 表示 方法 ,其 中 TF(Term Frequency) 为 特征 项 
的 文档 内 频 度 , 即 在 文档 D 中 出 现 特征 项 T; 的 次 数 , 记 为 tfid); DF (Document 
Frequency) 为 特征 项 的 文档 频 度 , 即 在 文档 集合 中 出 现 特征 项 T: 的 文档 数 , 记 为 df); 
IDF(Inverse Document Frequency) 为 特征 项 的 反 文档 频 度 , 即 

id f (ti) = log(n/df (1;)) (9. 3) 


其 中 ,n 表示 训练 样本 的 总 数 。 

一 般 地 ,TF-IDF 中 文档 的 向 量 表示 DOW; ,W;,…,W,) 中 对 应 项 T, 的 权重 W; 定义 为 : 

W, = tf Gd X id f C£) (9.4) 

使 用 TF-IDF 的 明显 优势 是 随 着 特征 项 T; 在 文档 D 中 出 现 次 数 的 增加 ,tf (zi,d) 增 
大 ,这 样 特征 项 T; 的 权重 也 随 之 增 大 ,这 与 通常 的 理解 相 一 致 ; 如 果 特 征 项 T; 在 训练 样本 
集合 的 许多 文档 中 出 现 , 则 idf(ii;) 将 减 小 ,这 样 特 征 项 T; 的 权重 也 随 之 减 小 ,其 对 分 辨 文 
档 类 别 的 作用 也 将 减 小 ,这 是 因为 如 果 特 征 项 T; 的 文档 频 度 很 高 , 则 它 分 辨 这 些 文 档 的 能 
力 相对 减弱 ,所 以 使 其 权重 减 小 ,而 那些 更 能 分 辨 Web 文档 类 别 的 特征 项 权重 将 增 大 。 

采用 TF-IDF 算法 在 一 定 程度 上 减少 了 常用 词 对 文档 特征 抽取 的 影响 ,突出 重要 的 特 
征 项 ,同时 又 考虑 了 整个 文档 集合 中 文档 之 间 的 关系 ,因此 提取 的 特征 具有 和 较 高 的 代表 性 。 

3. 互信 息 

互信 息 (Mutual Information. MD) 是 统计 模型 中 衡量 两 个 随机 变量 XY 之 间 关 联 程度 
的 常用 参数 。 互 信息 越 大 ,两 个 特征 项 之 间 的 共 现 性 就 越 大 ,同样 , 词 和 类 别 的 互信 息 越 大 ， 
说 明 词 和 类 别 的 关系 就 越 密 切 。 可 根据 词 和 类 别 的 互信 息 进行 特征 提取 。 

利用 互信 息 提取 特征 的 过 程 如 下 : 

CD 初始 情况 下 ,该 特征 项 集合 包含 所 有 该 类 别 中 出 现 的 词 。 


(2) 对 于 每 个 词 , 计 算 词 和 类 别 的 互信 息 , 即 
P(W|C) pW,C;) 
MW .C;) lo ( POW ) log; AW x PG) (9.5) 


其 中 PC(W,C;) 是 训练 样本 中 特征 项 W 出 现在 类 别 C; 的 频率 ,P(W) 是 训练 样本 中 特 
征 项 W 出 现 的 频率 。 
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(3) 对 于 该 类 别 中 所 有 的 词 ,依据 计算 的 互信 息 大 小 排序 。 

(4) 抽取 一 定数 量 的 词 作为 特征 项 ,具体 需要 选取 多 少 特征 项 ,目前 还 没有 很 好 的 确定 
方法 ,一 般 采 用 先 确定 初始 值 ,然后 根据 实验 测试 和 统计 结果 确定 最 佳 值 。 

(5) 将 每 一 类 别 中 所 有 的 训练 样本 ,根据 抽取 的 特征 项 ,进行 向 量 维度 压缩 和 精简 。 


9.4 Web RÆ 


从 国内 外 发 展 来 看 , Web 分 类 已 取得 了 显著 成 效 ,尤其 是 美国 、 德 国 及 英国 等 对 此 领域 
的 探讨 使 Web 分 类 在 理论 和 实践 上 都 有 很 大 进步 。 相 对 而 言 , Web 聚 类 刚刚 处 于 起 步 和 
发 展 阶段 。 目 前 ,Web 聚 类 主要 应 用 于 模式 识别 .空间 数据 分 析 ( 在 地 理 信 息 系统 中 ,通过 
聚 类 发 现 特征 空间 建立 主题 索引 ; 在 空间 数据 挖掘 中 检测 并 解释 空间 中 的 簇 ) .图 像 处 理 、 
经 济 学 (尤其 是 市 场 研究 方面 ) 以 及 互联 网 的 文档 分 类 和 分 析 Web 日 志 数 据 发 现 相 似 的 访 
问 模式 。 

Web 聚 类 是 把 一 堆 Web 文档 自动 划分 成 不 同 的 类 别 , 任 一 类 别 内 的 Web 文档 与 同类 
别 内 的 其 他 Web 文档 的 相似 度 大 于 该 文档 与 其 他 类 别 文档 之 间 的 相似 度 。 

一 般 地 ,Web 聚 类 步骤 如 下 : 

(1) 模式 表示 ,包括 特征 抽取 以 及 将 Web 文档 表示 成 可 计算 的 形式 。 

(2) 根据 领域 知识 定义 模式 之 间 的 距离 度量 公式 。 

(3) 聚 类 /分 组 。 

(4) 评价 输出 结果 。 

目前 , Web 聚 类 面临 的 主要 挑战 是 : 

。 一 个 Web 文档 可 能 包含 多 个 主题 ,允许 属于 不 同 主题 的 Web 文档 归 入 多 个 不 同 的 

类 别 。 

。 高 维 问题 , 即 由 于 Web 文档 特征 项 维度 过 多 而 造成 处 理 效率 严重 降低 。 

。 海量 Web 文档 的 处 理 效率 。 

。 聚 类 效果 评价 。 

Web 聚 类 在 智能 信息 检索 .话题 检测 与 跟踪 自动 文摘 等 领域 都 有 着 非常 广泛 的 应 用 。 
特别 是 在 大 规模 情报 分 析 、 企 业 竞 争 情报 、 敏 感 社 区 发 现 和 股 情 分 析 等 方面 具有 很 大 优势 ， 
成 为 人 们 广泛 研究 和 使 用 的 Web 挖掘 工具 之 一 。 

Web 聚 类 的 目标 是 使 类 内 的 距离 尽 可 能 的 小 ,类 间 的 距离 尽 可 能 的 大 , 即 相似 的 Web 
文档 (距离 小 ) 尽 可 能 聚 在 一 起 ,不 相似 (距离 大 ) 的 Web 文档 划分 到 不 同 的 类 。 

相似 度 的 计算 方法 有 很 多 种 。 在 采用 向 量 空间 表示 Web 文档 的 模型 中 ,可 以 通过 计算 
两 个 向 量 之 间 的 相似 度 求 得 文档 与 类 别 之 间 的 相似 度 ,经常 采用 的 是 欧式 距离 , 见 式 (9. 6)。 


1/2 
DG. T) -[Xc-| (9.6) 


按照 Web 文档 表示 方法 的 不 同 , 可 将 现 有 的 Web 32$) Jg 3E T i8] Cword-based) ff , 4E 
于 知识 (knowledge-based) 的 和 基于 信息 (information-based) 的 三 类 。 

1. 基于 词 

理论 上 ,文本 自动 处 理 是 以 概念 为 基本 处 理 单元 ,而 词 是 概念 的 基本 组 成 部 分 ,是 不 可 


再 分 的 基本 表意 单元 ,是 信息 的 基本 载体 。 因 此 用 词 代 表 文 本 显然 是 可 行 的 。 这 种 方法 需 
要 较 好 的 切 分 技术 对 文本 进行 切 分 ,在 此 基础 上 这 种 方法 的 关键 是 合理 选取 可 以 代表 文本 
主题 内 容 的 词汇 ,并 据 此 对 文本 进行 自动 类 别 判 定 。 

2. 基于 知识 

基于 知识 的 自动 Web 聚 类 方法 主要 依赖 于 一 个 明确 的 知识 库 。 知 识 的 表示 方法 主要 
包括 产生 式 .语义 网 络 、 框 架 . 谓 词 .面向 对 象 . 粗 糙 集 .神经 网 络 . 基 于 语言 场 和 基于 知识 本 
体 表示 法 等 。 基 于 知识 聚 类 的 显著 特点 是 需要 手工 构建 知识 库 , 且 构建 的 知识 库 领 域 性 极 
强 , 可 移植 性 较 差 。 有 研究 工作 表明 ,在 一 定 的 领域 内 ,基于 知识 的 自动 Web 聚 类 系统 能 够 
快速 准确 地 进行 文本 归 类 。 

3. 基于 信息 

基于 信息 的 聚 类 是 一 种 介 于 基于 词 的 聚 类 和 基于 知识 的 聚 类 之 间 的 方法 。 该 方法 对 上 
下 文敏 感 , 是 一 种 有 选择 的 概念 抽取 技术 。 用 于 自动 Web 聚 类 技术 中 ,只 抽取 对 Web 分 类 
有 用 的 信息 ,抽取 短语 及 短语 周围 的 内 容 和 潜在 的 语义 信息 进行 Web 类 别 的 确定 。 需 要 指 
出 的 是 ,这 种 方法 可 以 用 来 处 理 没 有 关键 词 或 关键 短语 的 文章 ,并 且 避 兔 了 基于 词 的 自动 
Web 聚 类 在 处 理 一 词 多 义 ,一 义 多 词 ,短语 、 局 部 文本 以 至 全 文 文本 时 的 局 限 性 。 

实现 Web 聚 类 的 算法 不 少 ,主要 包括 平面 划分 聚 类 .层次 聚 类 、 基 于 网 格 的 方法 .基于 
密度 的 方法 和 基于 模型 的 方法 等 。 下 面 简要 介绍 平面 划分 法 和 层次 聚 类 法 。 

1. 层次 聚 类 法 

层次 聚 类 法 是 建立 在 给 定数 据 对 象 集合 的 一 个 层次 性 的 分 解 , 根 据 层 次 分 解 形成 的 过 
程 ,这 类 方法 可 分 为 分 裂 ( 自 顶 向 下 ) 或 合并 ( 自 底 向 上 )。 为 了 弥补 合并 或 分 裂 的 严格 性 , 层 
次 凝聚 方法 的 聚 类 效果 可 以 通过 分 析 每 个 层次 划分 中 的 对 象 链接 ,或 集成 其 他 的 聚 类 技术 
加 以 改进 。 

对 于 给 定 的 Web 文档 集 D— (d; .…,d,} ,层次 聚 类 法 的 具体 步骤 如 下 : 

(1) 将 文档 集 D {di,…,d,} 中 的 每 一 文档 d; 看 作 是 一 个 具有 单个 成 员 的 类 C; = 
(d) ,这 些 类 构成 DD 的 一 个 聚 类 C= {cl，… sc,); 

(2) 计算 C 中 每 对 类 别 (ci,cj) 之 间 的 相似 度 sim; scj); 

(3) 选取 具有 最 大 相似 度 的 类 对 arg. max sim(ci c) ,并 将 c 和 ci 合并 为 一 个 新 的 类 
c, 6; U c; ,从 而 构成 一 个 新 的 聚 类 C-—a;623) 

(4) 重复 上 述 步骤 ,直到 C 中 只 剩 下 一 个 类 为 止 。 

该 过 程 构造 出 一 棵 生成 树 ,其 中 包含 了 类 的 层次 信息 以 及 所 有 类 内 和 类 间 的 相似 度 。 
层次 聚 类 方法 是 最 常用 的 Web 聚 类 方法 , 它 能 够 生成 层次 化 的 嵌 套 类 ,而 且 准 确 度 高 。 但 
是 ,在 每 次 合并 时 需要 全 局 地 比较 所 有 类 别 之 间 的 相似 度 , 并 选择 出 最 佳 的 两 个 类 ,因此 运 
算 速 度 比 较 慢 ,不 适合 大 量 文档 的 集合 。 

2. 平面 划分 法 

平面 划分 法 与 层次 聚 类 法 的 区 别 在 于 , 它 将 Web 文档 集合 水 平地 分 割 为 若干 类 ,而 不 
是 生成 层次 化 的 嵌 套 类 。 它 首先 得 到 初始 & 个 划分 的 集合 ,参数 上 是 划分 篮 的 数量 ,然后 采 
用 迭代 重 定位 技术 ,通过 将 对 象 从 一 个 簇 移 到 另 一 个 簇 优 化 划分 。 

将 文档 集 D— (di ,ds ,…,d,) 水 平地 分 割 为 若干 类 ,具体 过 程 如 下 : 

CD 确定 生成 的 类 的 数目 k; 
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(2) 按照 某 种 原则 生成 个 聚 类 中 心 作为 聚 类 的 种 子 S 二 {51 ,so se) 

G) 对 D 中 的 每 一 文档 d; ,依次 计算 其 与 各 个 种 子 s; 的 相似 度 sim; ss 

(4) 选取 具有 最 大 相似 度 的 种 子 arg max sim(d;,s;) ,将 d; BAW s: 为 聚 类 中 心 的 类 
ci， 从 而 得 到 D 的 一 个 聚 类 C= (e ,cs 0) 

C) 重复 步骤 (2) — 0D ,得 到 较为 稳定 的 聚 类 结果 。 

该 算法 速度 快 ,但 是 必须 事先 确定 k 值 , 且 种 子 选取 的 好 坏 对 聚 类 有 和 较 大 影响 。 常 见 的 
平面 划分 法 包括 k 均值 和 模糊 c 均值 。 

目前 ,学 术 界 对 于 Web 聚 类 并 没有 统一 标准 的 评价 方法 ,已 有 的 评价 方法 多 借鉴 信息 
检索 或 文本 分 类 方面 的 评价 方法 。 


9.5 Web 分 类 


Web 分 类 是 指 按照 预先 定义 的 分 类 体系 ,将 Web 文档 集合 的 每 一 文档 归 入 某 一 类 别 。 
这 样 , 不 但 能 够 方便 用 户 浏 览 文档 ,而 且 可 以 通过 限制 搜索 范围 使 文档 的 查找 更 为 容易 。 目 
前 ,Yahoo 仍然 是 通过 人 工 对 Web 文档 进行 分 类 ,这 大 大 限制 了 其 索引 页 面 的 数目 和 覆盖 
范围 。 可 以 说 研究 Web 分 类 有 着 广泛 的 商业 前 景 和 应 用 价值 。 

文本 特征 指 的 是 关于 文本 的 元 数据 ,分 为 描述 性 特征 (例如 文本 的 名 称 . 日 期 ,大 小 和 类 
型 等 ) 以 及 语义 性 特征 (例如 文档 的 作者 、 机 构 .标题 ,内容 等 )。 对 于 内 容 这 个 难以 表示 的 特 
征 , 首 先 要 找到 一 种 能 够 被 计算 机 处 理 的 表示 方法 。 

VSM 是 近年 来 应 用 较 多 上 且 效果 较 好 的 方法 之 一 。 该 模型 中 ,Web 文档 被 看 做 是 由 一 
组 正 交 词 条 矢量 所 组 成 的 矢量 空间 ,每 个 Web 文档 表示 为 其 中 的 一 个 规范 化 特征 矢量 ,用 
Web 文档 中 出 现 的 所 有 单词 表示 其 内 容 特 征 。 预 处 理 的 过 程 首 先 排除 出 现 频率 高 但 是 含 
义 虚 泛 的 词语 ,例如 英文 中 的 athe each, for, 汉 语 中 的 “地 、 得 .的 这、 虽然 ?等 ; 然后 排除 
那些 在 Web 文档 集合 中 出 现 频率 很 低 的 单字 ; 在 英文 中 还 可 以 去 除 前 级 ,保留 词根 ,如 
walker, walking 和 walked 都 可 以 是 同一 个 词 walk. 

Web 分 类 是 有 指导 的 机 器 学 习 , 即 利用 预定 义 的 分 类 类 别 和 训练 样本 集 指导 学 习 , 预 
测 待 分 类 样本 的 类 别 。 

从 数学 角度 而 言 , Web 分 类 可 定义 为 文档 集 D= {di ,di,，…,d;}), 类 集 C= {a， 
C2 tt; ) :确定 任意 一 个 元 组 二 dj ,ci 二 映射 到 集合 {T,F} 上 的 值 , 故 Web 分 类 本 质 上 是 一 
个 函数 DXC-~(T,F)。 

广义 而 言 ,Web 分 类 是 数据 挖掘 的 一 种 ,但 与 传统 数据 挖掘 不 同 的 是 , Web 分 类 面 对 的 
是 半 结 构 化 或 非 结 构 化 的 数据 。 目 前 Web 分 类 最 普遍 的 实现 方法 是 将 Web 文档 结构 化 
后 ,再 运用 传统 的 分 类 算法 。 

Web 分 类 过 程 如 图 9. 4 所 示 ,首先 对 Web 文档 进行 预 处 理 , 将 Web 文档 用 模型 表示 ， 
并 进行 特征 提取 ; 然后 构造 并 训练 分 类 器 ; 最 后 利用 分 类 器 对 类 别 未 知 的 Web 文档 进行 
分 类 。 

Web 分 类 基本 上 都 需要 经 过 训练 和 测试 两 个 阶段 ,按照 Web 分 类 的 定义 ,训练 过 程 就 
是 寻找 映射 函数 的 过 程 , 即 构建 分 类 器 ; 测试 阶段 是 利用 训练 生成 的 模型 ,自动 完成 分 类 。 

根据 Web 文档 表示 模型 的 区 别 ,可 以 将 Web 分 类 算法 分 成 基于 特征 独立 性 的 算法 和 
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图 9.4 Web 分 类 过 程 


基于 特征 依赖 性 的 算法 。 基 于 特征 独立 性 算法 忽略 了 Web 文档 内 词汇 或 短语 之 间 的 语义 
关系 ,Web 文档 被 表现 为 分 量 间 关 系 独立 的 向 量 , 主 要 利用 数理 统计 方法 将 Web 分 类 问题 
转换 为 数学 分 析 , 包 括 相似 度 模型 .概率 模型 线性 模型 非 线 性 模型 和 组 合 模型 等 。 

在 相似 度 模 型 中 ,一 种 方法 是 计算 Web 文档 与 代表 某 一 Web 文档 类 别 的 中 心 向 量 之 
间 的 相似 度 sim(di,c;)。 其 中 类 别 的 中 心 向 量 是 根据 测试 文档 统计 计算 的 估计 值 。 类 别 的 
中 心 向 量 的 计算 包括 算术 平均 、 频 率 的 加 权 平 均 和 Rocchio 公式 等 ,相似 度 的 计算 方法 有 多 
种 ,常用 的 包括 : 

CD 词 条 重复 率 , 即 只 考虑 两 个 特征 向 量 所 包含 词 条 的 重复 程度 , 见 式 (9.7)。 
ni(di sci) 


simdi) = "Et (9.7) 
其 中 ,ni(disyc) 是 V(di) 和 Vlei) 具 有 的 相同 词 条 数目 ,ny Cl sci) J& V CA) HI V Ce He 
有 的 所 有 词 条 数目 。 
(2) 夹 角 余弦 , 即 考虑 两 个 特征 向 量 之 间 夹 角 的 余弦 , 见 式 (9. 8)。 
eV (9. 8) 


BV 2B X BV CDB 
其 中 ,VCde)。V(c) 为 标准 向 量 点 积 。 
(3) 欧 几 里 德 距离 , 即 两 个 向 量 的 空间 距离 , 见 式 (9.9) 。 


sim(d,,c) = |X) (dy 一 cp)2 (9. 9) 
j=1 


另 一 种 方法 不 需要 建立 描述 Web 文档 类 别 的 中 心 向 量 ,而 是 依赖 于 测试 文档 与 训练 文档 
之 间 的 相似 度 。 典 型 算法 是 k 近邻 算法 ,算法 的 主要 思路 是 计算 训练 文档 与 测试 文档 距离 最 
WHY k S Web 文档 ( 即 & 个 近邻 ) ,根据 这 个 Web 文档 的 类 别 判 定 待 分 类 Web 文档 的 类 别 。 


9.5.1 朴素 贝 叶 斯 


朴素 贝 叶 斯 (Naive Bayes, NB) 是 概率 模型 的 典型 算法 ,其 主要 思想 是 基于 贝 叶 斯 假 
设 , 即 Web 文档 中 的 词汇 在 确定 文档 类 别 的 作用 上 相互 独立 。 它 首先 计算 特征 词 属于 每 个 
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类 别 的 先 验 概率 ,根据 特征 词 的 先 验 概率 计算 该 Web 文档 属于 每 一 类 别 的 后 验 概率 ,最 后 
取 后 验 概率 最 大 的 类 别 作为 分 类 结果 。 很 多 学 者 对 朴素 贝 叶 斯 算法 进行 了 改进 ,如 增强 型 
朴素 贝 叶 斯 算法 .与 潜在 语义 索引 结合 的 贝 叶 斯 方法 以 及 贝 叶 斯 层次 分 类 等 。 

若 Web 文档 向 量 的 分 量 为 相应 的 词 在 Web 文档 中 出 现 的 频 度 ( 即 TF 表示 法 ), 则 采 
用 该 方法 表示 的 Web 文档 属于 类 c 的 概率 为 : 
POTE, Poner 


2;PG) |I, ,,PG'/c meo 


P(/Doc) (9.10) 
14- TKCF, c) 
| V I+ 3JTFCHi ,c) 


其 中 ,P(c) 为 一 个 Web 文档 属于 类 c 的 概率 ,P(F;/c) 是 对 c 类 文档 中 特征 下 ; 出 现 的 
条 件 概 率 的 拉 普 拉 斯 概率 估计 ,TF(F;,c) 是 c 类 文档 中 特征 F; 出 现 的 频 度 , |V | 为 单字 辞 
典 集 的 大 小 ,等 于 Web 文档 表示 中 所 包含 的 不 同 特征 的 总 数目 ,TF(F;,doc) 是 在 Web X 
档 中 特征 F; 出 现 的 频 度 。 
虽然 条 件 独立 性 假设 对 词汇 在 Web 文档 中 出 现 不 是 很 适合 ,但 NB 是 一 种 有 效 的 
方法 。 
NB 算法 的 步骤 如 下 : 
Learn_Native_Bayes(Docs,V) 
(1) 收集 Docs 中 所 有 词汇 。 
(2) vocabulary*-Docs 中 Web 文档 出 现 的 所 有 词汇 集合 。 
G) 计算 概率 PC) RI PG, lV) 
O 对 V 分 类 集中 的 每 一 个 目标 值 Vj;, 有 
docs<-Docs 中 类 标签 Vj 的 Web 文档 子 集 
P(Vi)<|docs|/|Docs| 
m< 在 docs 中 不 同 词汇 的 总 数 
@ 对 vocabulary 中 每 个 词汇 zw ,有 
nk 一 词汇 «wy 在 docs; 中 出 现 的 次 数 


n +1 
n +| vocabulary | 


贝 叶 斯 分 类 的 特点 是 : 

D 贝 叶 斯 分 类 并 不 把 一 个 对 象 绝对 地 指派 给 某 一 类 ,而 是 通过 计算 得 出 属于 某 一 类 
的 概率 ,具有 最 大 概率 的 类 便 是 该 对 象 所 属 的 类 别 。 

(2) 一 般 情况 下 , 贝 叶 斯 分 类 中 所 有 的 属性 都 潜在 地 起 作用 , 即 并 不 是 一 个 或 几 个 属性 
决定 分 类 ,而 是 所 有 的 属性 都 参与 分 类 。 

(3) 贝 叶 斯 分 类 对 象 的 属性 值 可 以 是 离散 的 、 连 续 的 ,也 可 以 是 混合 的 。 

贝 叶 斯 定理 给 出 了 最 小 化 误差 的 最 优 解决 方法 ,可 用 于 分 类 和 预测 。 理 论 上 很 完美 ,但 
实际 中 并 不 能 直接 应 用 ,因为 需要 知道 数据 的 确切 分 布 概率 ,而 实际 上 并 不 能 确切 地 给 出 。 
因此 在 很 多 Web 分 类 算法 中 都 会 做 出 某 种 假设 以 和 逼 近 贝 叶 斯 定理 的 条 件 独立 性 假设 。 


PCFi/c) = (9.11) 
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9.5.2 其 他 方法 


支持 向 量 机 (Support Vector Machines,SVM) 是 对 结构 风险 最 小 化 原则 的 近似 ,该 算 
法 的 主要 思想 是 在 给 定 的 训练 集 上 , 作 一 个 超 平 面 的 线性 划分 ,将 分 类 问题 转化 为 一 个 寻找 
空间 最 优 和 平面 的 问题 ,再 次 转化 成 一 个 二 次 规划 问题 。 原 因 是 如 果 所 有 的 向 量 都 能 够 被 某 
个 超 平 面 正确 划分 ,并 且 各 类 向 量 与 超 平面 的 最 小 距离 最 大 化 ( 即 边缘 最 大 化 ) , 则 该 超 平面 
为 最 优 超 平 面 ,距离 平面 最 近 的 异类 向 量 为 支持 向 量 , 一 组 支持 向 量 可 以 唯一 确定 一 个 超 
平面 。 

VSM 是 由 Salton 等 人 于 20 世纪 60 年 代 末 提 出 。 这 是 最 早 也 是 最 著名 的 信息 检索 的 
数学 模型 。 其 基本 思想 是 将 Web 文档 表示 为 加 权 的 特征 向 量 DCT Wi 5 T; Wo 5 Tas 
Wp) ,然后 通过 计算 文本 相似 度 确定 待 测 样本 的 类 别 。 当 Web 文档 被 表示 为 空间 向 量 模 型 
时 ,其 相似 度 就 可 以 借助 特征 向 量 之 间 的 内 积 表示 。 

实际 应 用 中 ,VSM 一 般 事先 依据 语料库 中 的 训练 样本 和 分 类 体系 建立 类 别 向 量 空间 。 
当 需 要 对 待 测 样本 进行 分 类 时 ,只 需要 计算 待 测 样本 和 每 一 个 类 别 向 量 的 相似 度 即 内 积 , 然 
后 选取 相似 度 最 大 的 类 别 作为 待 测 样本 所 对 应 的 类 别 。 

由 于 VSM 需要 事先 计算 类 别 的 空间 向 量 ,而 该 空间 向 量 的 建立 又 很 大 程度 依赖 于 该 
类 别 向 量 的 特征 项 。 研 究 发 现 , 类 别 中 所 包含 的 非 零 特征 项 越 多 ,所 包含 的 每 个 特征 项 对 于 
类 别 的 表达 能 力 越 弱 。 因 此 ,VSM 相对 其 他 分 类 方法 而 言 , 更 适合 于 专业 文献 的 分 类 。 


9.5.3 评价 


通常 , Web 分 类 准确 率 的 评价 包括 保留 和 交叉 验证 两 种 方法 ,它们 都 假定 待 分 类 样本 
和 训练 样本 具有 同样 的 分 布 。 

CD 保留 (holdout) : 数据 集 的 一 部 分 (通常 是 2/3) 作 为 训练 集 ,剩余 部 分 用 作 测 试 集 。 
利用 训练 集 构造 分 类 器 ,然后 使 用 这 一 分 类 器 对 测试 集 样本 进行 分 类 , 即 评估 分 类 器 的 准 
确 率 。 

虽然 这 种 方法 速度 快 ,但 由 于 仅 使 用 2/3 的 数据 构造 分 类 器 ,并 没有 充分 利用 所 有 的 样 
本 进行 学 习 训 练 。 如 果 使 用 所 有 的 样本 ,那么 可 能 构造 出 更 精确 的 分 类 器 。 

(2) 交叉 验证 (cross validation) : 数据 集 被 划分 为 & 个 没有 交叉 的 子 集 ,所 有 子 集 的 大 
小 大 致 相同 。 分 类 器 训练 和 测试 次; 每 次 分 类 器 使 用 一 个 子 集 的 剩余 数据 作为 训练 集 ， 
然后 在 该 子 集 上 进行 测试 。 最 终 取 所 有 准确 率 的 平均 值 作为 评估 结果 。 

交叉 验证 方法 可 以 重复 执行 多 次 ,对 于 一 个 1 次 k 分 的 交叉 验证 ,kXi 个 分 类 器 被 构造 
并 被 评估 ,这 意味 着 交叉 验证 的 时 间 是 分 类 器 构造 时 间 的 &AXz 倍 。 增 加 重复 的 次 数 意味 着 
运行 时 间 的 增长 和 准确 率 的 改善 。 我 们 可 以 对 & 值 进行 调整 ,减少 到 3 或 5, 这 样 可 以 缩短 
运行 时 间 。 然 而 , 减 小 训练 集 有 可 能 使 评估 产生 较 大 的 偏差 。 

通常 ,保留 评估 法 用 于 最 初 的 探索 性 试验 ,或 者 数据 量 多 于 5000 的 数据 集 ; 交叉 验证 
法 用 于 建立 最 终 的 分 类 器 ,或 者 很 小 的 数据 集 。 

Web 分 类 的 评价 指标 主要 包括 : 
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CD 准确 率 ”模型 正确 预测 未 知 数据 的 能 力 。 

(2) 速度 ”构建 和 使 用 模型 花费 的 时 间 。 

CD 健壮 性 ”有 了 噪声 或 缺失 数据 时 模型 正确 分 类 或 预测 的 能 力 。 

(4) 伸缩 性 ”对 于 大 数据 量 ,有 效 构造 模型 的 能 力 。 

(5) 可 解释 性 ”模型 提供 的 理解 和 观察 的 层次 。 

Web 分 类 常用 的 评估 指标 包括 分 类 正确 率 、 查 准 率 (precision rate)、 查 全 率 (recall 
rate) F 值 . 宏 平均 和 微 平均 等 。 其 中 ,分 类 正确 率 定义 为 所 有 正确 分 类 的 样本 数 与 整个 测 
试 样本 数 之 比 。 查 准 率 和 查 全 率 又 称 为 精确 率 和 召回 率 ,是 信息 检索 的 评估 指标 ,同时 也 适 
用 于 Web 分 类 。 查 准 率 是 指 分 类 器 判定 的 属于 类 别 C; 的 所 有 文档 中 ,确实 属于 类 别 C; 的 
文档 所 占 的 比例 , 即 : 

p 三 实际 正确 分 类 的 文档 数 / 分 类 器 分 为 类 C, 的 文档 总 数 
查 全 率 是 指 原 本 属于 类 别 C; 的 所 有 文档 中 ,分 类 器 正确 判定 的 文档 所 占 的 比例 , 即 ; 
r= 实际 正确 分 类 的 文档 数 / 原本 属于 类 C; 的 文档 总 数 

微 平均 计算 所 有 类 别 中 正确 分 类 和 错误 分 类 的 样本 总 数 ,再 求 查 准 率 和 查 全 率 ; 宏 平 
均 首 先 计 算 各 个 类 别 的 查 准 率 和 查 全 率 ,然后 取 算 术 平 均 。 目 前 ,关于 哪 种 评估 方法 最 好 还 
没有 定论 。 

下 值 是 由 C.J. Van Rijsbergen 提出 ,其 定义 为 : 


EN 2 — rp 
dg rw FES (9.12) 
A 


其 中 ,r 是 查 全 率 ,p 是 查 准 率 ,下 通过 赋予 查 准 率 和 查 全 率 相同 的 权重 平衡 对 两 者 的 评价 。 
实际 中 ,影响 Web 分 类 准确 率 的 主要 因素 包括 : 

(1) 训练 集 的 样本 数量 。 因 为 利用 训练 样本 对 分 类 器 进行 学 习 和 训练 ,所 以 训练 集 越 
大 ,分 类 器 性 能 越 可 靠 。 然 而 ,训练 集 越 大 ,构造 分 类 器 所 需 训练 学 习 的 时 间 就 越 长 。 分 类 
准确 率 随 训练 集 规模 的 增 大 而 提高 。 

(2) 属性 的 数目 。 更 多 的 属性 对 于 分 类 器 而 言 意 味 着 计算 更 多 的 组 合 ,计算 时 间 更 长 。 
有 时 随机 关系 会 将 分 类 器 引入 歧途 ,导致 可 能 构造 的 分 类 器 准确 率 不 高 (又 称 过 度 拟 合 ) 。 
因此 ,如 果 我 们 通过 常识 分 析 和 判断 某 个 属性 与 分 类 无 关 , 则 将 其 删除 。 

CD 属性 的 信息 。 有 时 分 类 器 无 法 从 属性 中 获取 足够 的 特征 进行 分 类 和 预测 ,如 试图 
根据 某 人 眼睛 的 颜色 预测 其 收入 ,可 考虑 引入 其 他 属性 ,如 职业 、 每 周 工作 小 时 数 和 年 龄 等 ， 
以 提高 准确 率 。 

(4) 待 测 样本 的 分 布 。 如 果 待 测 样本 不 同 于 训练 样本 的 分 布 , 则 分 类 准确 率 可 能 很 低 。 
例如 利用 家 用 型 轿车 的 训练 集 构造 的 分 类 器 ,试图 用 它 对 运动 型 轿车 进行 分 类 可 能 没有 什 
么 意义 ,因为 样本 特征 的 分 布 可 能 差别 很 大 。 


第 10 章 数据 挖掘 实例 


本 章 主要 面向 电信 和 领域 ,基于 客户 的 计 费 、 账 务 、 通 话 详 单 和 客户 资料 等 海量 数据 ,运用 
数据 挖掘 算法 和 工具 ,针对 客户 细 分 、 重 入 网 识别 和 WAP 日 志 挖 掘 等 专题 分 析 进 行 详细 
介绍 。 


10.1 TOM 和 eTOM 


为 了 了 解 电信 行业 的 特点 ,深刻 理解 各 种 专题 分 析 提 出 的 背景 以 及 对 于 提高 电信 运营 
商 核心 竞争 力 和 辅助 经 营 决策 的 重要 意义 ,首先 简要 介绍 TOM 和 eTOM 规范 。 

1. TOM 

虽然 世界 各 国 的 电信 企业 各 有 各 的 特点 ,但 是 电信 行业 具有 其 自身 固有 的 一 般 性 运营 
模式 。 电 信和 管理 论坛 (TeleManagement Forum. TMF) 提 出 的 电信 运营 图 C Telecom 
Operations Map,TOM) 涵 盖 了 电信 和 运营 的 一 般 业 务 流 程 ,是 电信 运营 管理 事实 上 的 国际 
标准 。 

TOM 以 TMN(Telecommunications Management Network. ,电信 管理 网 ) 模 型 为 基础 。 
TMN 提供 电信 服务 的 运营 支撑 和 管理 ,TOM 则 注重 TMN 网 元 层 以 上 的 运营 管理 。 实 现 
电信 和 数据 业务 端 到 端 流程 的 自动 化 是 电信 和 运营 商 整合 运营 支撑 系统 的 主要 目标 之 一 ， 
TOM 则 是 实现 这 一 目标 的 业务 流程 框架 。 

TOM 使 用 分 层 且 通用 的 方法 描述 电信 运营 商 运 营 方 式 及 其 业务 结构 ,是 描述 操作 流 
程 的 通用 视图 。 其 重点 是 电信 运营 商 使 用 的 业务 流程 \ 流 程 之 间 的 连接 ,接口 的 确定 以 及 各 
流程 对 客户 、 服 务 和 网 络 等 信息 的 使 用 情况 。 

TOM 并 没有 包含 运营 流程 中 每 一 个 可 能 的 视图 ,只 是 提供 了 一 般 性 的 框架 以 规范 
一 个 单独 的 电信 运营 商 如 何 开发 和 执行 其 流程 。 每 家 电信 运营 商 依据 自身 的 业务 上 日 标 
和 策略 ,以 及 适用 的 业务 规则 和 政策 开发 和 更 新 流程 。TOM 的 业务 流程 框架 如 图 10. 1 
所 示 。 

由 图 10.1 可 知 ,TOM 把 电信 业务 纵向 地 划分 为 客户 接口 管理 .客户 关怀 .业务 开发 及 
运行 、 网 络 和 系统 管理 四 个 流程 。 

(1) 客户 接口 管理 流程 直接 与 客户 交互 ,将 客户 的 需求 和 查询 转化 为 相应 的 “事件 ”, 如 
新 建 订 单 .账单 调整 等 。 

(2) 客户 关怀 流程 处 理 与 客户 相关 的 工作 ,是 面向 客户 的 流程 。 包 括 销售 、 客 户 订购 处 
理 , 问 题 处 理 、 客 户 QoS 管理 以 及 发 票 和 收费 等 模块 。 

(3) 业务 开发 及 运行 流程 管理 业务 开发 和 业务 运行 等 ,是 面向 业务 的 流程 。 包 括 业 务 
开发 、 业 务 配 置 和 业务 管理 等 模块 。 

(4) 网 络 和 系统 管理 流程 是 面向 网 络 资源 的 流程 。 包 括 网 络 计 划 、 网 络 提供 、 网 络 维护 
和 恢复 等 模块 。 
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在 上 述 业 务 流 程 框架 的 基础 上 ,TOM 把 电信 业务 流程 划分 为 端 到 端的 多 个 组 成 部 分 ， 
对 每 个 组 成 部 分 定义 了 功能 以 及 其 对 上 和 对 下 的 连接 点 (接口 ), 从 而 为 整个 电信 业务 实现 


自动 化 和 可 配置 提供 框架 。 


此 外 ,TOM 把 电信 运营 流程 横向 地 划分 为 业务 实现 (service fulfillment) , 业务 保障 


10.1 TOM 的 业务 流程 框架 


(service assurance) 和 业务 计 费 (service billing) 三 部 分 ,如 图 10. 2 所 示 。 


D 业务 实现 是 指 所 提供 业务 的 开通 方面 。 包 括 销售 业务 开发 和 网 络 提供 等 模块 , 保 


证 及 时 地 向 客户 提供 正确 的 业务 。 


D 业务 保障 是 指 如 何 维护 业务 的 正常 运行 。 包 括 客户 QoS 管理 ,业务 质量 管理 ,网 


络 维护 和 恢复 等 模块 ,保证 向 客户 提供 高 质量 的 服务 。 


(3) 业务 计 费 是 指 与 账 务 有 关 的 功能 。 包 括 收费 、 批 价 和 网 络 数据 管理 等 模块 ,保证 及 


时 准确 地 向 客户 收取 费用 。 


业务 实现 业务 保障 1 业务 计 费 
1 1 
Y 1 I 
销售 Aen [i | 问题 处 理 | | 客户 Qos 管 理 | | | 发票 和 收费 
-: 1 1 
1 客户 关怀 流程 ! 
| | 
1 1 
业务 计划 和 1 人 业务 问题 业务 质量 ] 1! 
A 业务 配置 | ! | an MEM | ， | 批 价 和 折扣 
I 1 
1 业务 开发 及 运行 流程 | 
| | 
1 1 
I 1 
: 1 网络 总 最 AREE 网 络 数据 
网 络 计划 mak [i| PES 维护 和 恢复 | | | A 
I 1 
网 络 和 系统 管理 流程 | 


图 10.2 业务 实现 ,保障 和 计 费 (Fulfillment,Assurance,Billing,FAB) 端 到 端 流 程 的 分 割 


2. eTOM 

eTOM 是 由 TMF 提出 的 一 个 业务 流程 模型 ,或 称 业务 流程 框架 (business process 
framework) ,能 够 为 服务 提供 商 提供 企业 的 业务 流程 。eTOM 源 于 TOM 并 扩展 了 TOM， 
是 一 个 更 详细 ,更 成 熟 的 标准 。 它 提供 针对 业务 提供 商 的 完整 的 企业 业务 流程 框架 ,并 结合 
了 新 的 电子 商务 (eBusiness) 方 面 的 内 容 。eTOM 框架 涵盖 了 整个 企业 的 范围 ,而 且 适 应 电 
子 商务 环境 对 企业 的 影响 。eTOM 的 整体 流程 框架 如 图 10. 3 所 示 。 

eTOM 旨 在 为 行业 展现 这 样 一 个 前 景 , 即 通过 使 用 业务 流程 驱动 的 方式 管理 企业 , 帮 
助 企业 在 竞争 中 获胜 。 保 证 所 有 与 服务 的 提供 和 支持 相关 的 .关键 的 企业 支撑 系统 之 间 的 
整合 ,这 也 是 eTOM 的 目的 之 一 。eTOM 主要 关注 于 服务 提供 商 使 用 的 业务 流程 ,这 些 业 
务 流程 之 间 的 互 连 关 系 , 接 口 的 确定 和 定义 ,以 及 被 多 个 业务 流程 所 使 用 的 关于 客户 、 服 务 、 
资源 和 供应 商 /合作 伙伴 等 各 方面 的 信息 。 在 电子 商务 环境 中 ,通过 自动 化 提高 生产 能 力 ， 
增加 利润 和 改善 客户 关系 ,这 是 至 关 重 要 的 。 

eTOM 继承 了 TOM 注重 业务 流程 .客户 驱动 、 自 项 向 下 的 模型 设计 和 广泛 适用 等 优 
势 。 同 时 不 同 于 TOM.eTOM 是 针对 业务 提供 商 完 整 的 企业 业务 流程 框架 ,并 结合 了 新 的 
电子 商务 方面 的 内 容 。 

eTOM 自 顶 向 下 提供 不 同 粒度 的 业务 流程 框架 图 ,由 图 10. 3 可 知 eTOM 把 企业 业务 
流程 分 为 三 大 部 分 , 即 : 

(1) 策略 .基础 设施 和 产品 包括 策略 的 设计 开发 .基础 设施 建设 .产品 管理 以 及 供应 链 
的 开发 管理 。 在 eTOM 中 ,基础 设施 不 仅 包括 支撑 业务 和 产品 的 IT 和 资源 基础 设施 ,还 包 
括 一 些 支撑 功能 性 流程 (例如 客户 管理 流程 等 ) 的 基础 设施 。 

(2) 运营 流程 是 eTOM 的 核心 部 分 ,包括 所 有 客户 业务 和 相关 管理 的 运营 流程 ( 含 与 
客户 直接 接触 的 流程 ) .日常 的 运营 支持 和 运营 准备 .销售 管理 .供应 商 和 伙伴 关系 管理 等 。 
这 一 部 分 继承 了 TOM 中 的 业务 实现 .业务 保障 和 业务 计 费 等 几 个 部 分 ,同时 增加 了 运营 支 
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10.3 eTOM 的 整体 流程 框架 


持 和 准备 部 分 。 

(3) 企业 管理 流程 包括 运营 任何 业务 都 需要 的 一 些 基本 流程 。 这 些 流 程 注 重 于 企业 层 
的 流程 和 目标 ,与 几乎 其 他 所 有 的 流程 都 有 接口 ,一 般 是 公司 的 职能 或 者 流程 ,例如 财政 管 
理 和 人 力 资 源 管理 流程 等 。 

TMF 还 从 其 他 的 视角 探讨 了 电信 运营 的 框架 ,如 系统 集成 图 (System Integration 
Map. SIM) ,技术 集成 图 (Technology Integration Map,TIM) 等 一 系列 标准 ,由 于 篇 幅 所 限 
不 再 袭 述 ,详细 资料 可 浏览 TMF 网 站 (http://www. tmforum. org) 。 

TOM 与 客户 关系 管理 (Customer Relationship Management,CRM) 有 关 的 部 分 包括 客 
户 接口 管理 流程 和 客户 关怀 流程 ,其 中 客户 关怀 流程 注重 业务 处 理 方面 ,CRM 理念 更 主要 
体现 在 客户 接口 管理 流程 中 。 依 赖 于 运营 商 ,客户 接口 管理 可 以 是 单个 的 客户 关怀 流程 也 
Bpod 描述 支持 客户 关怀 流程 的 客户 接口 功能 ,例如 集成 的 客户 接口 管 

\ 语 音 应 答 单元 和 Web 接口 支持 。 
eTOM 重点 明确 了 CRM 的 定位 ,对 CRM 模块 的 描述 比 TOM 更 详细 和 具体 。eTOM 


中 位 于 第 二 层 的 CRM 流程 框架 如 图 10.4 所 示 。 
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um 
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持 和 流 各 i-a 出 售 问题 处 理 QoS/SLA 
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销售 和 渠道 CRM 客户 保持 TAA 客户 接口 计 费 和 收费 
管理 操作 准备 和 忠诚 度 管理 管理 


10.4 eTOM 中 第 二 层 的 CRM 流程 框架 


由 图 10.4 可 知 ,eTOM 中 CRM 的 功能 非常 强大 ,不 仅 包 括 TOM 中 的 客户 接口 管理 
功能 ,而 且 还 包括 客户 保持 和 忠诚 度 等 功能 。 

数据 挖掘 作为 一 种 数据 深入 分 析 的 手段 ,不 仅 可 以 对 图 10. 4 中 的 客户 保持 和 忠诚 度 、 
客户 QoS/SLA 管理 等 模块 提供 支持 ,而 且 是 企业 管理 部 分 市 场 调查 和 分 析 、 知 识 管理 等 的 
重要 技术 手段 。 

基于 TOM 和 eTOM 规范 构建 的 电信 企业 IT 总 体 架构 如 图 10.5 所 示 。 

其 中 ,CRM 系统 的 核心 思想 是 将 企业 客户 (包括 最 终 客户 、 分 销 商 和 合作 伙伴 ) 作 为 最 
重要 的 企业 资源 ,通过 完善 的 客户 服务 和 深入 的 客户 分 析 满 足 广大 客户 需要 ,保证 实现 客户 
终生 价值 。 

CRM 也 是 一 种 管理 软件 和 技术 ,将 最 佳 的 商业 实践 与 数据 挖掘 、 数 据 仓库 ,一 对 一 营 
销 、 销 售 自动 化 以 及 其 他 信息 技术 紧密 结合 在 一 起 ,为 企业 营销 、 客 户 服务 和 决策 支持 等 提 
供 一 个 自动 化 的 解决 方案 ,使 企业 拥有 基于 电子 商务 面向 客户 的 平台 ,以 顺利 地 实现 由 传统 
企业 模式 向 以 电子 商务 为 基础 的 现代 企业 模式 的 转变 。 

可 见 ,CRM* 以 客户 为 中 心 ”的 理念 要 求 企业 必须 完整 地 认识 整个 客户 生命 周期 ,提供 
与 客户 沟通 有 效 的 统一 平台 ,提高 员工 与 客户 接触 效率 和 客户 反馈 率 , 提 高 客户 忠诚 度 、 满 
意 度 以 及 降低 企业 经 营 成 本 ,提升 客户 价值 ,最 终 提高 企业 收入 和 利润 。 

CRM 系统 的 基本 功能 包括 客户 管理 .产品 管理 .联系 人 管理 .营销 管理 、 潜 在 客户 管 
理 、 销 售 管理 ,电话 营销 和 客户 服务 ,有 些 还 涉及 工作 流 管理 .呼叫 中 心 、 合 作 伙 伴 管理 .知识 
管理 .商业 智能 和 电子 商务 等 。 

CRM 系统 主要 分 为 运营 型 .分 析 型 和 协作 型 三 种 。 

1) 运营 型 CRM(Operational CRM) 

运营 型 CRM 建立 在 客户 管理 对 于 企业 成 功 具 有 很 重要 的 作用 这 一 理念 上 ,要 求 所 有 
业务 流程 自动 化 ,全 面 提高 企业 同 客户 的 交流 能 力 。 

运营 型 CRM 的 应 用 主要 体现 在 以 下 五 个 方面 。 

CO 销售 套件 ”为 企业 管理 销售 业务 的 全 过 程 提供 丰富 强大 的 功能 ,包括 销售 信息 管 
理 \ 销 售 过 程 定制 销售 过 程 监控 、 销 售 预测 和 销售 信息 分 析 等 。 运 营 型 CRM 销售 套件 将 是 
销售 人 员 关 注 客 户 ,把 握 机 会 、 完 成 销售 的 有 力 工具 ,并 有 助 于 提高 销售 能 力 。 它 对 企业 的 典 
型 作用 是 帮助 企业 管理 并 跟踪 从 销售 机 会 产生 到 结束 各 销售 阶段 和 环节 的 全 程 信息 和 动作 。 
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(2) 营销 套件 “为 企业 全 程 掌 握 市 场 营 销 活 动 的 运作 提供 便利 ,提供 市 场 营销 活动 信 
息 管理 .计划 预测 、 项 目 追 踪 成 本 明细 、 回 应 管理 和 效果 评估 等 功能 ,帮助 企业 管理 者 清楚 
了 解 所 有 市 场 营 销 活 动 的 成 本 和 投资 回报 。 

(3) 服务 套件 “帮助 企业 以 最 低 成 本 为 客户 提供 周到 、 及 时 和 准确 的 服务 ,提供 包括 服 
务 请 求 及 投诉 的 创建 .分配 .解决 跟踪、 反馈 、 回 访 等 相关 服务 环节 组 成 的 闭环 式 处 理 模式 ， 
帮助 企业 维系 和 挽留 老 客户 .发展 新 客户 。 

CD 电子 商务 套件 ” 旨 在 企业 商务 过 程 e 化 ,帮助 企业 将 门户 站 点 、 各 种 营销 渠道 集成 
在 一 起 ,开拓 新 的 营销 渠道 和 商务 处 理 模 式 。 

(5) 平台 ”是 产品 的 基础 核心 平台 ,能 够 实现 产品 的 基础 数据 维护 安全 控制 .动态 配 
置 和 工作 流 定 制 等 功能 。 

2) 分 析 型 CRM( Analytical CRM) 

分 析 型 CRM 主要 是 分 析 从 原 有 业务 系统 中 获得 的 各 种 数据 ,进而 为 企业 的 经 营 决 策 
提供 可 靠 的 量化 依据 。 一 般 地 ,分 析 型 CRM 需要 使 用 一 些 诸如 数据 仓库 .OLAP 和 数据 挖 
所 等 数据 管理 和 分 析 工 具 。 

分 析 型 CRM 的 销售 、 服 务 市 场 , 电 子 商务 以 及 业务 平台 等 功能 可 将 客户 的 各 种 信 
息 按 照 分 析 需 求 进行 整合 ,通过 建立 不 同 的 模型 ,对 不 同 客户 群 采 用 针对 性 的 和 有 效 的 
互动 交流 。 涉 及 的 核心 技术 包括 数据 仓库 .OLAP 和 数据 挖掘 等 ,分 析 型 CRM 如 图 10.6 
所 示 。 
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图 10.6 分 析 型 CRM 示意 图 
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3) 协作 型 CRM(Collaborative CRM) 

协作 型 CRM 可 以 实现 全 方位 的 客户 交互 服务 和 收集 客户 信息 ,实现 多 种 客户 交流 渠 
道 (如 呼叫 中 心 、 面 对 面 交 流 、 网 上 交流 、E-mail、Fax 等 ) 的 集成 ,使 各 种 渠道 相互 融合 ,保证 
企业 和 客户 都 能 获得 完整 ,准确 和 一 致 的 信息 。 其 中 : 

(1) 电话 接口 (telephone interface) 提 供与 电话 系统 集成 的 接口 ,支持 CTI 中 间 件 。 

(2) 电子 邮件 和 传真 接口 。 

。 与 电子 邮件 和 传真 集成 ,收发 电子 邮件 和 传真 。 

。 自动 产生 电子 邮件 以 及 确认 信息 接收 。 

。 存储 活动 关键 特性 ,如 电子 邮件 /传真 类 型 .电子 邮件 /传真 发 送 状 态 、 发 送 日 期 时 

间 等 。 

(3) 网 上 互动 交流 。 

* 互动 浏览 

。 个 性 化 网 页 

。 站 点 调查 

。 客户 历史 

。 通过 网 络 提交 服务 申请 

(4) 呼出 功能 支持 电话 销售 /电话 市 场 推广 等 。 

除了 CRM,ERP(Enterprise Resource Planning. ,企业 资源 规划 ) 也 是 一 种 企业 运行 管 
理 软件 ,其 侧重 点 是 对 企业 内 部 业务 流程 以 及 企业 资源 进行 管理 。 

在 ERP 刚刚 被 引入 国内 时 ,许多 人 将 其 看 做 是 提高 企业 运营 水 平 的 万 能 钥匙 ,并 期 望 
它 能 给 各 行业 带 来 革命 性 的 变革 ,而 结果 却 差强人意 。 其 主要 原因 是 没有 真正 理解 ERP 的 
实质 , 即 没有 摆 正 其 在 企业 管理 中 的 位 置 。 

ERP 作为 一 种 企业 资源 管理 的 后 台 软 件 , 解 决 的 是 企业 内 部 各 环节 的 协调 问题 ,如 财 
务 . 生 产 .采购 和 仓储 等 部 门 间 的 协调 关系 。 同 样 作 为 现代 企业 的 管理 软件 ,ERP 与 CRM 
在 企业 运营 过 程 中 ,处 于 不 同 的 位 置 ,担任 不 同 的 角色 。 前 者 面向 后 台 , 后 者 面向 前 台 。 一 
个 保证 企业 生产 出 更 高 质量 的 产品 ,而 另 一 个 帮助 企业 理 顺 与 客户 的 关系 ,向 客户 提供 最 好 
的 服务 。 这 是 企业 在 激烈 的 市 场 竞 争 中 立 于 不 败 之 地 不 可 或 缺 的 两 个 环节 。 

事实 上 ,在 国际 各 大 软件 厂商 的 企业 管理 软件 解决 方案 中 ,也 往往 是 将 两 者 紧密 结合 
来 。 对 企业 后 台 的 财务 .生产 .采购 和 储 运 等 部 门 而 言 ,CRM 提供 客户 需求 .市 场 分 布 、 对 
产品 的 反应 及 产品 销售 状况 等 信息 ,通过 CRM 与 企业 后 台 ERP 的 集成 ,CRM 提供 的 丰富 
数据 和 智能 化 分 析 结 果 ,成 为 企业 经 营 决策 的 科学 依据 。 

通过 ERP 与 CRM 系统 的 紧密 集成 ,把 企业 供应 商 和 服务 商 等 联 成 一 个 有 机 的 整体 ， 
真正 实现 以 客户 为 中 心 ,并 最 大 限度 地 满足 客户 需要 和 降低 企业 成 本 。 


10.2 客户 细 分 
在 过 去 国内 电信 市 场 竞争 相对 平缓 的 环境 下 ,传统 的 大 众 化 营销 模式 是 成 功 的 ,为 企业 


带 来 了 数量 庞大 的 客户 群 和 巨大 的 经 济 和 社会 效益 。 但 随 着 市 场 竞争 环境 的 不 断 演变 , 竞 
争 越 来 越 白热化 ,电信 产品 越 来 越 丰富 ,价格 战 不 断 升 级 ,尤其 是 面向 中 高 端 客户 采用 传统 


的 大 众 化 营销 模式 已 经 不 能 达到 预期 目标 ,无 法 满足 新 的 市 场 需求 。 在 这 种 形势 下 ,需要 探 
索 一 种 有 别 于 传统 大 众 化 的 更 有 效 的 新 型 营销 模式 ,有 针对 性 地 吸引 长 期 .稳定 且 优质 的 客 
户 群 ,以 达到 更 高 的 产品 投资 回报 率 , 提 高 市 场 占有 率 ,为 电信 企业 创造 更 高 的 价值 和 利润 ， 
因此 客户 细 分 应 运 而 生 。 客 户 细 分 是 在 充分 了 解 客户 的 基础 上 ,通过 客户 使 用 行为 特征 、 消 
费 行为 特征 和 自然 属性 等 ,区 分 不 同 的 客户 群 ,以 实现 针对 性 营销 。 


10.2.1 客户 生命 周期 


客户 生命 周期 (又 称 客户 关系 生命 周期 ) 是 指 客户 关系 水 平 随时 间 变 化 的 发 展 轨迹 , 即 
从 一 个 客户 开始 对 企业 进行 了 解 或 企业 欲 发 展 某 一 客户 开始 ,直到 客户 与 企业 的 业务 关系 
完全 终止 且 与 之 相关 的 事宜 完全 处 理 完 毕 的 时 间 间 隔 。 它 直观 地 揭示 了 客户 关系 发 展 从 一 
种 状态 向 另 一 种 状态 迁移 的 特征 。 客 户 生命 周期 是 企业 产品 生命 周期 的 演变 。 对 企业 而 
Fi ,客户 生命 周期 要 比 企 业 某 个 产品 的 生命 周期 更 为 重要 。 

根据 电信 行业 客户 关系 的 特点 ,其 客户 生命 周期 可 分 为 五 个 阶段 ,分 别 是 识别 期 , 即 客 
户 关系 的 建立 阶段 ; 成 长 期 , 即 客户 关系 的 加 强 阶段 ; 稳定 期 , 即 客户 关系 的 维持 稳定 阶 
Br. 预警 期 , 即 客户 关系 的 挽留 阶段 ; 离 网 期 , 即 客户 关系 的 破裂 或 恢复 阶段 ,如 图 10.7 
所 示 。 

客户 价值 

i 1 I 1 1 


1 
识别 期 | 成 长 | 稳定 期 1 预警 | 离 网 期 | 
1 期 1 1 期 


I 
| 

入 网 点 ! 离 网 点 
1 


时 间 


客户 生命 周期 


10.7 电信 客户 生命 周期 


对 于 客户 生命 周期 的 不 同 阶段 ,客户 价值 与 企业 的 投入 都 大 不 相同 ,企业 采取 的 策略 也 
有 所 不 同 。 识 别 期 企业 需要 主动 地 发 现 可 能 建立 客户 关系 的 潜在 客户 ,从 广大 消费 群体 中 
挖掘 目标 客户 ; 成 长 期 企业 需要 甄别 客户 类 型 ,挖掘 有 价值 客户 ,采取 客户 关系 提升 策略 ; 
稳定 期 企业 需要 维系 客户 关系 ; 预警 期 企业 需要 发 现 衰退 迹象 ,判断 客户 关系 是 否 值得 保 
持 ,采取 挽留 或 终止 策略 ; 离 网 期 企业 需要 采取 客户 关系 恢复 策略 。 在 明确 客户 生命 周期 
的 基础 上 ,电信 运营 商 需 要 对 客户 进行 全 生命 周期 管理 。 客 户 全 生命 周期 管理 是 指 在 假设 
企业 具备 生产 有 市 场 潜 力 的 产品 和 服务 能 力 的 情况 下 ,如 何 从 广大 消费 群体 中 发 现 目 标 客 
户 ,以 及 围绕 目标 客户 关系 的 建立 ,发展 成熟 和 衰退 这 一 生命 周期 ,根据 客户 关系 所 处 的 不 
同 阶段 ,采用 相应 的 组 合 策略 ,对 目标 客户 资源 进行 动态 管理 ,以 期 实现 企业 和 客户 长 期 的 
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原理 及 应 用 


价值 互动 ,最 大 化 长 期 互动 关系 的 效用 ,达到 客户 与 企业 的 双赢 。 客 户 全 生命 周期 管理 开始 
于 企业 潜在 客户 的 识别 ,终止 于 企业 与 客户 关系 的 破裂 。 

客户 生命 周期 可 以 根据 客户 使 用 行为 .消费 行为 和 客户 价值 等 几 大 类 指标 进行 划分 。 

通过 对 客户 特征 全 面 而 深入 的 分 析 , 细 分 潜在 的 客户 群 ,进一步 洞察 客户 诉求 ,采用 特 
定 的 营销 手段 吸引 客户 注意 ,使 客户 知晓 企业 及 企业 提供 的 产品 或 服务 。 在 持续 认 知 的 基 
础 上 ,客户 开始 考虑 是 否 使 用 该 企业 的 产品 或 服务 满足 自身 需求 。 通 过 对 产品 的 综合 评价 ， 
客户 决定 是 购买 该 企业 的 产品 或 服务 ,还 是 购买 竞争 对 手 的 产品 或 服务 。 一 旦 客户 决定 购 
买 该 企业 的 产品 或 服务 ,实现 了 第 一 次 购买 ,潜在 客户 就 成 为 实际 客户 。 如 果 运 营 商 能 实现 
有 效 的 维系 ,鼓励 存量 客户 购买 数量 更 多 的 产品 、 价 值 更 高 的 服务 ,客户 不 断 地 选择 购买 该 
企业 的 产品 和 服务 , 则 客户 关系 得 以 长 期 延续 。 一 旦 发 现 客户 对 该 企业 的 感知 度 或 价值 水 
平 下 跌 而 可 能 流失 , 则 实施 有 效 的 挽留 ,以 降低 因 有 价值 的 客户 不 再 光顾 而 产生 的 流失 ; 同 
时 可 以 终止 没有 一 利 能 力 的 、 停 止 发 展 的 或 者 不 令 人 满意 的 客户 关系 ,取而代之 的 是 能 够 更 
好 地 与 企业 的 利润 .成 长 和 定位 相 匹 配 的 客户 。 

针对 电信 客户 生命 周期 各 阶段 的 不 同 特点 ,运营 商 可 以 采取 不 同 的 策略 预防 和 控制 客 
户 流失 ,如 表 10. 1 所 示 。 


表 10.1 电信 客户 生命 周期 不 同 阶段 的 客户 维系 挽留 策略 


客户 生命 周期 阶段 成 长 其 稳 定 期 预 警 其 
提升 客户 价值 提高 客户 满意 度 流失 预警 
策略 长 远 规划 营销 方案 HERNES 欠 费 管理 
市 场 区 隔 老 客户 回报 带 号 转 资 费 
10.2.2 客户 价值 


客户 价值 是 近年 来 营销 领域 研究 的 热点 和 难点 之 一 。 营 销 科学 研究 所 (Marketing 
Science Institute) 已 经 连续 几 年 将 客户 价值 列 为 优先 研究 领域 。 对 于 客户 价值 的 研究 可 以 
从 三 方面 展开 , 即 客户 为 价值 感受 主体 、 企 业 为 价值 感受 主体 以 及 企业 和 客户 互 为 价值 感受 
主体 和 感受 客体 。 

从 企业 的 角度 研究 客户 价值 ,主要 包括 两 个 方面 , 即 客 户 价值 和 客户 终生 价值 
(Customer Lifetime Value,CLV)。 客 户 价 值 是 指 客户 当前 所 产生 的 净利 润 。 客 户 终生 价 
值 的 定义 有 多 种 ,其 中 1985 年 Barbara Jackson 将 客户 终生 价值 定义 为 客户 当前 以 及 将 来 
所 产生 的 货币 利益 的 净 现 值 ; 1994 年 Jackson 将 客户 终身 价值 定义 为 企业 预计 客户 在 长 期 
的 购买 行为 中 ,会 对 该 企业 带 来 未 来 利润 的 总 现 值 ; Bitran 和 Mondschein 认为 客户 终生 价 
值 是 客户 在 整个 生命 周期 内 所 产生 的 净利 润 的 折 现 值 。 综 上 所 述 ,客户 终生 价值 可 定义 为 
客户 在 整个 生命 周期 内 各 个 交易 期 的 利润 净 现 值 之 和 。 客 户 终生 价值 是 企业 利润 的 重要 来 
源 , 客 户 终 生 价值 越 大 ,对 于 企业 长 远 发 展 越 有 利 。 

由 客户 价值 和 客户 终生 价值 的 定义 可 知 ,前 者 关注 客户 在 某 一 时 间 点 上 的 价值 表现 ; 
后 者 关注 客户 在 整个 客户 生命 周期 的 最 终 价 值 贡献 。 随 着 对 客户 终生 价值 研究 的 深入 ,很 
自然 地 将 客户 终生 价值 和 客户 生命 周期 两 者 紧密 联系 起 来 。 客 户 生命 周期 中 稳定 期 越 长 , 
客户 价值 折 现 年 限 越 长 ,客户 价值 越 高 。 


下 面 介 绍 客户 价值 计算 。 

客户 价值 的 含义 可 以 从 客户 和 企业 两 个 方面 分 析 。 从 客户 的 角度 而 言 ,客户 价值 是 指 
客户 感知 价值 ,可 利用 1995 年 纽曼 提出 的 客户 价值 特性 /成 本 模型 加 以 说 明 , 如 图 10. 8 
所 示 。 


产品 特性 | 一 一 一 
服务 特性 | 一 一 
zn 预期 利润 MERE 
交易 成 本 | — —, 预期 成 本 价值 
生命 周 其 | 

成 本 


w 


图 10.8 客户 价值 特性 /成 本 模型 


从 电信 企业 的 角度 而 言 ,客户 价值 是 指 客户 终生 价值 ,通常 由 历史 价值 、 当 前 价值 和 洪 
在 价值 三 部 分 构成 ,如 图 10. 9 所 示 。 历 史 价 值 是 指 到 目前 为 止 已 经 实现 的 客户 价值 ; 当前 
价值 是 指 如 果 客 户 当前 行为 模式 不 发 生 改变 的 话 , 在 将 来 会 给 企业 带 来 的 客户 价值 ; 潜在 
价值 是 指 如 果 企业 通过 有 效 的 交叉 销售 .调动 客户 购买 积极 性 或 客户 向 别人 推荐 产品 和 服 
务 等 ,从 而 可 能 增加 的 客户 价值 。 

企业 在 评价 客户 是 否 具 有 价值 时 ,不 仅 要 参考 客户 历史 价值 的 表现 ,更 重要 的 是 预测 其 
当前 价值 和 潜在 价值 的 表现 。 客 户 历史 价值 是 指 已 经 带 来 的 利润 ,是 企业 感知 客户 价值 的 
一 个 重要 方面 ; 客户 当前 价值 决定 了 企业 当前 的 盈利 水 平 ; 客户 潜在 价值 关系 到 企业 的 长 
远 利润 ,是 直接 影响 企业 是 否 继续 投资 于 该 客户 的 一 个 重要 因素 。 

根据 客户 终生 价值 的 定义 ,1995 年 Angus Jenkison 给 出 其 通用 的 计算 公式 , 即 : 


T 
V—3(,-COoxQ-ci (10. D 
n=0 


其 中 ,T 为 客户 的 生命 周期 ,R, 为 客户 在 第 年 给 企业 带 来 的 收益 (包括 货币 因素 和 非 货 币 
因素 ),C, 为 企业 为 其 投入 的 成 本 ,i 为 银行 贴现 率 。 对 于 客户 终生 价值 的 计算 ,企业 可 变 的 
投入 成 本 是 影响 客户 终生 价值 的 重要 变量 ,而 客户 生命 周期 时 间 是 一 个 关键 参数 。 

对 于 历史 价值 当前 价值 和 潜在 价值 都 可 以 通过 直接 计算 和 指标 评价 两 种 方法 得 到 。 
直接 计算 是 指 通过 严格 的 数学 计算 得 到 具体 数值 ; 指标 评价 是 指 通过 相关 指标 的 评价 间接 
获得 评价 值 。 

参照 客户 终生 价值 并 结合 电信 客户 自身 特点 给 出 了 一 种 客户 历史 价值 当前 价值 潜在 


价值 和 总 体 价 值 的 计算 方法 ,分 别 如 式 (10.2) 一 式 (10.5) 所 示 。 
客户 历史 价值 : 
V, = RG) X ARPU — G: — C, (10. 2) 
其 中 ,R(D) 是 客户 在 网 时 长 ,C; 是 均 挫 成 本 ,C 是 个 人 维系 成 本 。 
客户 当前 价值 : 
V. = F; X G,/ARPU X K X B (10. 3) 


SoBBISPBEE gc 


N 
m 
U 


其 中 ,Fs 是 最 近 三 个 月 应 缴费 用 总 额 ; KK 为 价值 成 色 , 是 本 地 通话 与 长 途 和 漫游 话费 的 比 
值 ,反映 话 务 结构 和 结算 成 本 ; B 为 价值 爆发 力 ,是 最 近 五 个 月 最 高 ARPU 值 与 ARPU 均 
值 的 比值 。 
客户 潜在 价值 : 
V, = >)(ARPUX(1 一 LCD) 十 M) (10.4) 
其 中 ,L(7) 是 客户 在 未 来 第 1 个 月 的 流失 概率 ,M 是 客户 的 协议 剩余 金额 。 
客户 总 体 价 值 : 
V —0.25 X (Vy — Vu4)/SD() + 0. 5 X (V, — Vave) / 
SDCV.) + 0. 25 X (V, — Vave) /SD(V,) (10. 5) 
客户 总 体 价 值 是 客户 历史 、 当 前 和 潜在 价值 标准 化 后 的 加 权 平 均 ,其 中 Viws Vus 
Vpsve 分 别 是 客户 历史 价值 、 当 前 价值 和 潜在 价值 的 均值 ; SD(Vs)、SDCV.) 和 SDCV,) 分 别 是 
客户 历史 价值 、 当 前 价值 和 潜在 价值 的 标准 差 。 


10.2.3 数据 准备 


为 了 维系 挽留 即将 到 期 的 CDMA 合约 用 户 ,针对 不 同 客户 群 的 特征 实施 客户 细 分 ,并 
结合 电信 企业 市 场 部 门 的 营销 策略 提供 个 性 化 服务 ,减少 客户 流失 。 本 例 选 取 某 市 2007 年 
6 一 8 月 即将 到 期 的 CDMA 合约 用 户 资料 ,以 及 最 近 连 续 六 个 月 的 通话 详 单 和 出 账 费用 等 
相关 数据 作为 分 析 对 象 ,如 表 10. 2 所 示 。 


510.2 某 市 2007 年 6—8 月 即将 到 期 的 CDMA 合约 用 户 一 览 表 


用 户 数 
合约 到 期 的 期 限 
在 网 正常 出 账 
2007/06 745 238 
2007/07 1545 1078 
2007/08 6135 3934 
合计 8425 5250 


由 表 10. 2 可 知 ,2007 年 6 一 8 月 即将 到 期 的 在 网 CDMA 合约 用 户 数 共计 8425 ,正常 出 
账 的 用 户 数 5250。 对 于 这 部 分 用 户 还 需要 进行 数据 清洗 ,以 剔除 下 列 无 效用 户 , 即 : 

CO 去 除 入 网 渠道 为 "员工 ”的 记录 ,因为 内 部 员工 并 非 分 析 的 对 象 ,属于 噪声 数据 。 

(2) 去 除 孤 立 点 。 在 进行 客户 价值 聚 类 时 ,发 现 * 平 均 当 月 总 消费 ?为 1073 76,1060 元 
和 956 元 的 三 个 用 户 记 录 使 得 聚 类 中 心 发 生 严重 偏 移 ,去 除 其 中 个 别 的 孤立 点 。 在 进行 消 
费 行为 聚 类 时 ,发 现 * 平 均 套餐 优惠 费 ” 中 存在 超大 值 , 去 除 其 中 个 别 的 孤立 点 。 

(3) 检测 某 项 消费 额 为 负 值 的 用 户 ,无 此 类 记录 存在 ,应 去 除 。 

(4) 在 进行 消费 行为 聚 类 的 变量 选择 时 ,由 于 漫游 一 项 只 有 漫游 计 费 次 数 ,而 其 他 是 以 
通话 次 数 来 衡量 ,随机 抽取 20% 的 数据 验证 平均 长 途 通话 次 数 与 平均 长 途 计 费 次 数 大 致 呈 
正比 关系 ,因此 把 漫游 计 费 次 数 也 作为 聚 类 分 析 的 一 个 变量 。 

去 除 上 述 “ 品 声 ” 后 ,针对 2007 年 6 一 8 月 即将 到 期 的 有 效 的 CDMA 合约 用 户 4824 ii 


行 客户 细 分 ,并 采用 Z Score 方法 进行 数据 标准 化 。 


10.2.4 分 析 过 程 


下 面 介绍 客户 细 分 过 程 。 
COD 利用 K-means 聚 类 算法 ,根据 客户 价值 聚 类 为 高 端 . 中 高 端 . 中 端 和 低 端 四 类 客户 
群 ,如 表 10. 3 所 示 。 


表 10.3 根据 客户 价值 聚 类 的 结果 


类 别 | 客户 价值 /元 出 账 费 用 明细 用 户 数 特征 描述 
主要 费用 项 金额 /元 占 比 
漫游 费 267. 37 47. 34 
本 地 话费 234. 89 41.5% 
高 端 用 户 565. 39 KAER andi 6 iM 108 以 漫游 为 主 
增值 费 13. 99 2.596 
短信 费 11.2 2% 
主要 费用 项 金额 /元 占 比 
本 地 话费 132. 95 47.5% 
p 279. 96 ur "Y = 569 | 以 市 话 和 漫游 为 主 
增值 费 12.64 4.596 
短信 费 7.97 2.9% 
主要 费用 项 金额 /元 占 比 
本 地 话费 71.76 49.3% 
漫游 费 47.43 32.6% 
中 端 客户 145. 69 EXER TET "ET 541 | 以 市 话 和 漫游 为 主 
增值 费 8.75 6% 
短信 费 5.28 3.5% 
主要 费用 项 金额 /元 占 比 
本 地 话费 15.69 52.496 
短信 费 4.53 15.1% 
EN "M 增值 费 3.73 12.5% aeae, ridus 
长 途 话 费 3. 55 11.9% 
漫游 费 2. 44 8.1% 
合计 4824 


由 图 10. 9 可 以 看 出 聚 类 效果 较为 显著 , 绝 大 多 数 很 集中 ,不 存在 极 值 ,只 有 个 别 的 孤立 
点 , 且 它 们 距离 聚 类 中 心 并 不 远 。 
(2) 利用 K-means 聚 类 算法 ,根据 客户 消费 行为 ,如 月 均 基本 通话 费 、 月 均 长 途 费 月 均 
漫游 费 .月 均 短 信和 费 和 月 均 增值 费 等 指标 聚 类 为 节约 型 .时 尚 型 .电话 型 .长 途 型 .短信 型 和 
未 知 型 六 类 客户 群 ,如 表 10.4 和 图 10. 10 所 示 。 
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低 端 客户 中 高 端 客户 高 端 客户 中 端 客户 
图 10.9 四 种 客户 群 的 客户 价值 分 布 
聚 类 1 | 聚 类 3 | 聚 类 6 | 聚 类 4 | 聚 类 5 | 聚 类 2 | 重要 性 (%) 
会 =95 
Q z90 
E< 
A 未 知 
平均 其 他 费 会 
- E - = | B 100 
平均 基本 @ 
平均 增值 
会 
业务 费 加 a E | 100 
平均 月 租 费 * 
E z - i - 100 
平均 漫游 费 | | e 
E - a ll wo 
平均 短信 费 * 
= 国 E o 国 "n 
平均 长 途 费 l | 会 
- 100 


10.10 根据 客户 消费 行为 聚 类 的 结果 


表 10.4 根据 客户 消费 行为 聚 类 的 结果 


序 号 类 别名 称 用 P 数 
1 节约 型 3703 
2 时 尚 型 (以 增值 .长 途 、 漫 游 为 主 ) 20 
3 电话 型 (以 市 话 、 长 途 、 漫 游 为 主 ) 395 
4 长 途 型 189 
5 短信 型 185 
6 未 知 型 (其 他 费用 高 ) 332 
合计 4824 


G) 利用 K-means 聚 类 算法 ,根据 客户 通话 行为 特征 ,如 平均 本 地 通话 次 数 . 平 均 主 叫 
通话 次 数 ,平均 被 叫 通话 次 数 ,平均 长 途 通 话 次 数 ,平均 IP 通话 次 数 .平均 漫游 计 费 次 数 和 
平均 假期 通话 次 数 等 指标 聚 类 为 极 少 型 .假期 型 .长途 漫游 型 .普通 型 和 IP 电话 型 五 类 客户 
群 ,如 表 10.5 和 图 10. 11 所 示 。 


聚 类 1 | 聚 类 4 | 聚 类 3 | 聚 类 2 | RZS 重要 性 (%) 


SOOOOE 


Zscore( 平 均 IP e 
通话 次 数 ) "LECHE 300 
Zscore( 平 均 主 叫 * 
miss | ww m EH = 100 


Zscore( 平 均 假期 


通话 次 数 ) e E 国 I ea y 
Zscore( 平 均 本 地 l e 
通话 次 数 ) 国 = = 100 
Zscore pi l 中 * 
计 费 次 数 ) - = = 100 
Zscore( 平 均 被 叫 j 会 
通话 次 数 ) El EJ = 100 
Zscore( 平 均 长 途 | ll e 
mao ”| m 1o; 


图 10.11 根据 客户 通话 行为 聚 类 的 结果 
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表 10.5 根据 客户 通话 行为 聚 类 的 结果 
序号 类 别名 称 用 户 数 
ł 极 少 型 3561 
2 假期 型 114 
3 长 途 漫游 型 249 
4 普通 型 806 
5 IP 电话 型 94 
合计 4824 


(4) 汇总 上 述 聚 类 结果 ,如 表 10.6 所 示 。 电 信 企 业 市 场 营销 部 门 可 以 根据 不 同 客户 群 
的 价值 贡献 ,消费 行为 特征 和 通话 行为 特征 推荐 适合 的 优惠 套餐 ,实现 个 性 化 维 挽 服务 。 


表 10.6 聚 类 结果 的 汇总 


客户 通话 行为 
^ 
价值 Tees 极 少 型 | 假期 型 Fen 普通 型 | 了 电话 型 | 合计 
用 户 数 2999 1 0 352 19 3371 
节约 再 消费 行为 占 比 89.0% | 0.0% | 0.0% | 10.496 | 0.6% | 100.0% 
f 通话 行为 占 比 93.796 | 100.0% | 0.096 | 91.7% | 95.0% 
总 占 比 83.2% | 0.0% | 0.0% | 9.8% | 0.596 | 93.594 
低 用 户 数 202 0 0 32 1 235 
端 短信 型 消费 行为 占 比 86.0% | 0.0% | 0.0% | 13.6% | 0.4% | 100.0% 
用 通话 行为 占 比 6.3% | 0.0% | 0.0% | 8.3% | 5.0% 
户 总 占 比 5.696 | 0.096 | 0.096 | 0.9% | 0.0% 6.5% 
用 户 数 3201 1 0 384 20 3606 
合计 消费 行为 占 比 88.8% | 0.0% | 0.0% | 10.6% | 0.6% | 100.0% 
2 通话 行为 占 比 100.0% | 100.0% | 0.0% | 100.0% | 100. 0% 
总 占 比 88.8% | 0.0% | 0.0% | 10.6% | 0.6% | 100.0% 
用 户 数 2 1 6 3 3 15 
节约 型 消费 行为 占 比 13.394 | 6.794 | 40.096 | 20.0% | 20.0% | 100.0% 
通话 行为 占 比 1.6% | 2.14 | 3.5956 1.6% 7.95 
总 占 比 0.4% | 0.2% 1.1% | 0.5% | 0.5% 2.7% 
时 尚 型 用 户 数 4 0 5 2 0 11 
中 | (增值 漫游 消费 行为 占 比 36.4% | 0.0% | 45.4% | 18.2% | 0.0% | 100.0% 
高 长 途 ) 通话 行为 占 比 3.396 | 0.0% 2.996 1.0% | 0.0% 
总 占 比 0.796 | 0.096 | 0.994 | 0.494 | 0.094 2.096 
端 
用 电话 型 用 户 数 9 21 126 79 21 256 
^| (市 话 漫游 消费 行为 占 比 3.5% | 8.2% | 49.2% | 30.9% | 8.2% | 100.0% 
长 途 ) 通话 行为 占 比 7.496 | 43.7% | 74.1% | 41.496 | 55.294 
总 占 比 1.6% | 3.7% | 22.196 | 13.9% | 3.794 | 45.0% 
用 户 数 24 站 1 72 4 126 
消费 行为 占 比 19.196 | 19.896 | 0.896 | 57.196 | 3.296 | 100.0% 
T" 通话 行为 占 比 19.794 | 52.196 | 0.696 | 37.796 | 10.596 
总 占 比 4.296 | 4.496 | 0.296 | 12.7% | 0.796 | 22.2% 


客户 " 通话 行为 1 
价值 vinis 极 少 型 | 假期 型 [3 普通 型 emm ^5 
用 户 数 81 0 27 32 5 145 
未 知 型 消费 行为 占 比 55.996 | 0.096 | 18.696 | 22.196 | 3.496 | 100.094 
(其 他 费用 高 ) | 通话 行为 占 比 66.496 | 0.026 | 15.926 | 16.726 | 13.296 
总 占 比 14.2% | 0.096 | 4.796 | 5.696 | 0.996 | 25.4% 
m 用 户 数 2 1 5 3 5 16 
: 短信 型 消费 行为 占 比 12.5% | 6.2% | 31.3% | 18.7% | 31.3% | 100.0% 
用 通话 行为 占 比 1.6% | 2.1% | 3.0% 1.6% | 13.2% 
户 总 占 比 0.4% | 0.296 | 0.996 | 0.5% | 0.996 2.9% 
用 户 数 122 48 170 191 38 569 
合计 消费 行为 占 比 21.4% | 8.4% | 29.9% | 33.6% | 6.7% | 100.0% 
通话 行为 占 比 100.0% | 100.0% | 100.0% | 100.0% | 100. 0% 
总 占 比 21.4% | 8.4% | 29.9% | 33.6% | 6.7% | 100.0% 
用 户 数 1 2 5 0 0 8 
时 尚 型 (增值 | 消费 行为 占 比 12.5% | 25.0% | 62.5% | 0.0% | 0.0% | 100.0% 
漫游 长 途 ) | 通话 行为 占 比 33.3% | 4.3% | 10.6% | 0.0% | 0.0% 
总 占 比 0.9% 1.9% | 4.6% | 0.0% | 0.0% 7.4% 
用 户 数 0 37 34 4 1 76 
电话 型 (市 话 | 消费 行为 占 比 0.096 | 48.7% | 44.7% | 5.3% | 1.3% | 100.0% 
漫游 长 途 ) | 通话 行为 占 比 0.0% | 78.7% | 72.3% | 44.4% | 50.0% 
总 占 比 0.096 | 34.396 | 31.5% | 3.7% | 0.9% | 70.4% 
用 户 数 2 8 3 4 0 17 
长 过 到 消费 行为 占 比 11.8% | 47.196 | 17.696 | 23.5% | 0.0% | 100.096 
高 通话 行为 占 比 66.7% | 17.096 | 6.4% | 44.496 | 0.094 
端 总 占 比 1.9% 7.4% 2.8% 3.79 0.096 | 15.8% 
用 用 户 数 0 0 4 0 1 5 
P 未 知 型 消费 行为 占 比 0.0% | 0.0% | 80.0% | 0.0% | 20.0% | 100.0% 
(其 他 费用 高 ) | 通话 行为 占 比 0.026 | 0.096 | 8.596 | 0.0% | 50.096 
总 占 比 0.096 | 0.096 | 3.796 | 0.0% | 0.996 4.6% 
HP 0 0 1 1 0 2 
me" 消费 行为 占 比 0.026 | 0.026 | 50.0% | 50.096 | 0.0% | 100.0% 
通话 行为 占 比 0.026 | 0.0296 | 2.196 | 11.1% | 0.096 
总 占 比 0.096 | 0.0% | 0.9% | 0.9% | 0.094 1.8% 
用 户 数 3 47 47 9 2 108 
Ad 消费 行为 占 比 2.8% | 43.596 | 43.596 | 8.396 | 1.9% | 100.0% 
通话 行为 占 比 100.026 | 100.026 | 100.026 | 100.026 | 100. 0% 
总 占 比 2.894 | 43.596 | 43.596 | 8.3% 1.9% | 100.096 
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10.2.5 结果 


由 上 述 客户 细 分 可 知 , 低 端 用 户 群 的 消费 类 型 主要 集中 在 节约 型 (93. 5%) 和 短信 型 
(6.5%) 两 种 ; 通话 行为 类 型 主要 集中 在 极 少 型 (88. 8%) 和 普通 型 (10. 6%)。 且 其 中 绝 大 
部 分 的 用 户 既 是 节约 型 又 是 极 少 型 (83.2%) ,此 外 还 有 9.8% 的 用 户 非常 节约 ,基本 限于 本 
地 通话 ; 还 有 5.6% 的 用 户 使 用 短信 。 

中 端 用 户 群 的 节约 型 和 普通 型 占 比 最 大 ,短信 一 族 次 之 。 从 消费 行为 特征 上 看 ,节约 型 
占 比 58.6%% ,短信 型 占 比 15.6265 从 通话 行为 特征 上 看 , 极 少 型 和 普通 型 分 别 占 4420 
41.496, 

中 高 端 用 户 群 的 消费 行为 和 通话 行为 较为 分 散 , 多 数 以 市 话 、 长 途 和 漫游 通话 为 主 。 

高 端 用 户 群 的 市 话 \ 长 途 \ 漫 游 费用 占 比 很 高 。 从 消费 行为 特征 上 看 ,电话 型 占 比 
70. 496 ,而 长 途 型 只 占 15.8%; 从 通话 行为 特征 上 看 ,假期 型 和 长 途 漫游 型 各 占 43. 5%, 因 
此 高 端 用 户 群 的 主要 价值 来 源 于 漫游 和 长 途 业务 , 且 在 假期 客户 价值 尤其 高 。 

由 表 10.7 可 知 ,节约 型 与 极 少 型 用 户 几 乎 一 一 对 应 ,包含 了 少量 的 普通 型 ; 时 尚 型 用 
户 除 了 长 途 和 漫游 费用 较 高 外 ,还 有 很 大 一 部 分 增值 业务 的 费用 ,这 部 分 用 户 数量 不 多 , 主 
要 集中 在 长 途 漫 游 型 ; 电话 型 用 户 , 即 市 话 \ 长 途 和 漫游 费用 均 很 高 的 用 户 ,集中 在 长 途 漫 
游 型 ,还 有 一 部 分 普通 型 用 户 ; 长 途 型 用 户 有 一 半 是 普通 型 ,还 有 少量 的 极 少 型 和 假期 型 用 
户 ; 未 知 型 用 户 其 他 费用 极 高 , 且 用 户 数 不 少 ,60% 的 用 户 是 极 少 型 , 据 推测 其 他 费用 可 能 
是 使 用 了 数字 业务 导致 语音 业务 很 少 的 用 户 反 而 其 他 费用 高 ; 短信 型 用 户 大 部 分 来 源 于 节 
约 型 ,还 有 20.8% 的 普通 型 ,与 实际 情况 相符 。 

表 10.7 根据 客户 消费 行为 和 通话 行为 聚 类 的 结果 


通话 行为 
消费 行为 合计 
极 少 型 | 假期 型 | 长 途 漫 游 型 | 普通 型 | IP 电话 型 
用 户 数 3140 12 25 488 38 3703 
节约 型 消费 行为 占 比 84.8% | 0.3% 0.7% 13.2% 1.0% 100. 0% 
ý 通话 行为 占 比 88.2% | 8.1% 10.0% | 60.6% | 39.1% 
总 占 比 65.2% | 0.2% 0.5% 10.2% 0.7% 76.8% 
用 户 数 6 2 10 $ 0 20 
pira 消费 行为 占 比 30.0% | 10.026 50. 026 10.0% 0.0% 100. 0% 
游 长 途 ) 通话 行为 占 比 0.2% 1.8% 4.0% 0.2% 0.0% 
总 占 比 0.1% | 0.0% 0.2% 0.0% 0.0% 0.3% 
> 用 户 数 25 61 172 109 28 395 
消费 行为 占 比 6.396 | 15.496 43.696 | 27.694 7.1 100. 0% 
游 长 途 ) 通话 行为 占 比 0.7% | 55.096 69.196 13.5% | 30.496 
总 占 比 0.5% 1.3% 3.6% 2.3% 0.6% 8.3% 
用 户 数 39 37 4 104 5 189 
长 途 型 消费 行为 占 比 20.6% | 19.694 2.196 | 55.1% 2.6% 100. 0% 
通话 行为 占 比 1.1% |33.394 1.696 12.994 5.496 
总 占 比 0.8% | 0.8% 0.194 2.2% 0.1% 4.0% 


续 表 


通话 行为 
消费 行为 合计 
极 少 型 | 假期 型 | 长 途 漫游 型 | 普通 型 | IP 电 话 型 
用 户 数 111 0 32 34 8 185 
eese 消费 行为 占 比 60.0% | 0.026 17.394 18.494 4.396 100. 034 
用 高 ) 通话 行为 占 比 3.1% | 0.0% 12.9% 4.2% 8.7% 
总 占 比 2.3% 0.0% 0.7% 0.7% 0.2% 3.9% 
用 户 数 240 2 6 69 15 332 
* 消费 行为 占 比 72.396 | 0.696 1.896 20.8% 4.5% 100. 0% 
sna 通话 行为 占 比 6.796 1.8% 2.4% 8.5% 16.3% 
总 占 比 5.096 | 0.0% 0.1% 1.4% 0.3% 6.8% 
用 户 数 3561 114 249 806 94 4824 
"m 消费 行为 占 比 73.996 | 2.3% 5.296 16.794 1.9% 100. 0% 
通话 行为 占 比 100.026 100.026 100.0% | 100.026 | 100.026 100.0% 
总 占 比 73.996 | 2.3% 5.2% 16.7% 1.9% 100. 0% 


从 通话 行为 上 看 , 极 少 型 对 应 节约 型 ,假期 型 对 应 时 尚 型 和 长 途 型 ,长 途 漫游 型 对 应 电 
话 型 ,普通 型 对 应 节约 型 ,IP 电话 型 对 应 电话 型 和 节约 型 。 
综 上 所 述 , 某 市 2007 年 6 一 8 月 即将 到 期 CDMA 合约 客户 细 分 结果 如 表 10. 8 所 示 。 
表 10.8 某 市 2007 年 6~8 月 即将 到 期 CDMA 合约 客户 细 分 结果 


序号 | 类 别名 称 特征 描述 用 户 数 WOO 
1 DT SEK ED 3450 | 短信 优惠 
被 叫 明显 多 于 主 叫 ,各 业务 费用 被 叫 优 惠 ,各 种 业务 绑 定 
2 均衡 型 均衡 737 优惠 
3 | 长 途 弄 长 途 费用 高 ,几乎 无 温 游 费用 189 | 长 途 优惠 
4 | 市 话 长 途 温 游 型 “| 市 话 ,长途 、 漫 游 费用 均 很 高 gp | PEOR NER REEE 
绑 定 优惠 
5 | 增值 长 途 漫 游 型 “| 用 户 群 小 ,增值 费用 高 20 | 可 不 考虑 
6 | 假期 假期 时 各 项 费用 均 很 高 114 | 针对 假期 时 段 的 综合 优惠 


此 外 ,4824 用 户 中 选择 各 种 “校园 套餐 ”的 用 户 数 为 2920, 占 60.5%, 他 们 大 多 数 为 低 
端 客户 ,其 通话 行为 特征 表现 为 节省 型 ,月 均 消费 小 于 50 元 ; 选择 各 种 “商旅 套餐 ”的 用 
户 数 为 1090, 约 占 22.6% ,他们 大 多 数 为 高 端 和 中 高 端 客户 ,其 通话 行为 特征 表现 为 市 
话 长 途 漫 游 型 或 市 话 型 ,月 均 消 费 大 于 370 元 。 这 两 类 客户 群 在 消费 行为 特征 和 通话 行 
为 特征 方面 差异 较 明 显 , 占 83% 以 上 。 分析 中 还 可 看 出 漫游 业务 较 多 的 用 户 长 途 业 务 也 
多 ,可 针对 市 话 长 途 漫游 型 和 增值 长 途 漫 游 型 这 两 类 客户 群 推出 组 合 业务 ,或 针对 二 者 
共同 推出 长 途 漫游 绑 定 业务 。 
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10.3 重 入 网 识别 


10.3.1 定义 


重信 网 是 指 已 经 拥有 或 曾经 拥有 某 一 家 电信 运营 商 的 一 张 SIM Subscriber Identify 
Module, 客 户 识别 模块 ) 卡 (又 称 用 户 识别 卡 ) 的 情况 下 ,重新 在 本 地 或 本 省 其 他 地 区 购买 新 
的 同一 运营 商 的 SIM 卡 ,新 卡 部 分 或 者 全 部 替代 旧 卡 功能 。 

由 于 市 场 竞 争 日 趋 激 烈 , 以 及 增 量 市 场 趋 于 饱和 , 重 入 网 现象 日 趋 严 重 ,比例 也 越 来 越 
高 。 重 入 网 造成 的 卡号 资源 浪费 、 欠 费 等 后 果 直 接 导 致 运营 商 营销 成 本 的 增加 和 业务 收入 
的 下 滑 。 因 此 ,控制 重 入 网 比例 ,有 效 降低 重 入 网 带 来 的 运营 成 本 和 风险 ,目前 已 经 成 为 运 
营 商 面临 的 难题 , 重 入 网 识别 正 是 在 这 样 的 背景 下 应 运 而 生 , 其 应 用 价值 在 于 为 代理 商 佣金 
政策 动态 调整 和 绩效 考核 提供 科学 依据 ,提高 维系 挽留 的 精确 度 和 维系 成 本 使 用 的 有 效 性 。 


10.3.2 数据 准备 


数据 准备 主要 是 选择 合适 的 数据 源 ,整理 分 析 所 需 的 各 种 数据 ,包括 通话 、 消 费 ` 欠 费 和 
客服 等 数据 ,对 原始 数据 进行 检查 和 预 处 理 , 生 成 新 的 衍生 变量 ,并 整理 出 适合 分 析 使 用 的 
数据 宽 表 。 一 方面 尽量 确保 数据 的 完整 性 ; 另 一 方面 剔除 元 余数 据 ,减少 噪声 。 

根据 分 析 需 求 选取 某 市 2008 年 9 月 流失 的 CDMA 客户 (45537 户 ) 和 2008 年 9,10 月 
连续 两 个 月 新 发 展 的 CDMA 用 户 (135638 户 ) 作 为 分 析 对 象 。 从 ODS 系统 和 业务 支撑 系 
统 抽 取 其 通话 详 单 、 客 户 资料 和 出 账 等 数据 ,按照 客户 ID 进行 汇总 和 合并 ,生成 一 张 数据 宽 
表 , 其 中 每 行 代表 一 个 客户 ,每 列 代表 一 个 变量 。 数 据 宽 表格 式 如 表 10.9 所 示 。 

表 10.9 数据 宽 表 格式 


类 别 列 名 称 类 型 d xk 
CUST ID CHAR(20) 客户 ID 
GENDER CHAR(1) 性 别 
AGE NUMERIC 年 龄 

d IS LOC CHAR(D 是 否 本 地 居民 
NUM OF USERS NUMERIC 客户 对 应 的 用 户 总 数 
DATE DATE 统计 日 期 
ACC_DATE DATE 出 账 日 期 
USER_ID CHAR(15) 用 户 ID 
PIN CHAR(15) 号 码 

用 户 | VIP_TYPE CHAR(2) 用 户 价值 

信息 | PAY_MODE CHAR() 用 户 付费 方式 
HANDSET_MODEL CHAR(20) 用 户 手机 类 型 
MANUFACTURER CHAR(20) 用 户 手机 厂家 


续 表 


类 别 列 名 称 类 型 描 述 
IMEI CHAR(15) 用 户 手 机 IMEI 串 号 
COLLECT_MODE CHAR(1) 催 缴 模式 
SVC_ID CHAR(5) 业务 类 型 
INNET_LOC CHAR(4) 入 网 地 区 
DEPT NO CHAR(4) 部 门 编码 
INNET_CHANNEL CHAR(1) 入 网 渠道 
SALE_TYPE CHAR(2) 销售 模式 

" A CALL LOC CHAR(4) 当前 活动 区 域 

CALL LOC LST CHAR(4) 上 次 活动 区 域 
INNET_AGE NUMERIC 人 网 年 龄 
INNET_DATE DATE 入 网 日 期 
Tenure_IN_M NUMERIC 在 网 时 长 (月 ) 

ARPU NUMERIC ARPU 

MOU NUMERIC MOU 

ARPM NUMERIC ARPM 

PLAN_INIT CHAR(5) 初始 套餐 

PLAN_LAST CHAR(5) 最 近 套 餐 

PLAN_CURR CHAR(5) 当前 套餐 

PLAN_CHG_CNT NUMERIC 套餐 变动 总 数 

CONS_DUE_DATE DATE 当前 承诺 到 期 日 

IS_CONS_OVER CHAR(1) 是 否 已 经 承诺 到 期 

IS_CONS_DUE CHAR(1) 是 否 当月 承诺 到 期 

CONS_TYPE CHAR(3) 承诺 类 型 

CONS CHG NUMERIC 是 否 有 承诺 话费 

HANDSET_FREE CHAR(20) 承诺 是 否 赠送 手机 

HANDSET_PRICE NUMERIC 承诺 赠送 手机 价值 
DINNER_SPEC CHAR(G) 特 服 套餐 
RENT_PACKAGE NUMERIC 套餐 租 费 

IS_OVR_LMT CHAR(1) 是 否 超过 资费 套餐 定量 

RAT_OVR_LMT NUMERIC 超过 资费 套餐 定量 部 分 与 定量 的 比例 

TIME_TO_LST_PLN NUMERIC 距 最 近 一 次 套餐 变更 的 时 间 

PLAN_PRICE CHAR(1) 套餐 价位 

VOC_PACKAGE NUMERIC 包月 话费 

VAS PACKAGE NUMERIC 包月 特 服 

SMS PACKAGE NUMERIC 包月 短信 

PLAN_UTIL NUMERIC 套餐 使 用 度 ( 针 对 定额 或 包月 套餐 ) 

AVG SMS CHG NUMERIC 平均 每 条 短信 费用 

AVG PEAK CALL CHG NUMERIC 平均 每 分 钟 忙 时 呼出 费用 
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类 别 列 名 称 类 型 LEES: 
AVG OFPK CALL CHG NUMERIC 平均 每 分 钟 闲 时 呼出 费用 
AVG_PEAK_CALL_CHG NUMERIC 平均 每 分 钟 忙 时 呼 人 费用 
AVG_OFPK_CALL_CHG NUMERIC 平均 每 分 钟 闲 时 呼 人 费用 
IS COMP_PLAN CHAR(1) 套餐 是 否 针对 竞争 对 手 推 出 
IS_LV_PLAN CHAR(1) 套餐 是 否 针对 低 端 人 群 

资费 | IS_HV_PLAN CHAR(OD 套餐 是 否 针对 高 端 人 群 

信息 | IS_LD_PLAN CHAR(1) 套餐 是 否 针对 长 途 业务 优惠 
IS_RM_PLAN CHAR(OD 套餐 是 否 针对 漫游 业务 优惠 
IS_IN_PLAN CHAR(1) 套餐 是 否 针对 接听 优惠 
IS SMS PLAN CHAR(1) 套餐 是 否 针对 短信 优惠 
IS VAS PLAN CHAR() 套餐 是 否 针对 增值 服务 优惠 
HANDSET_BIND CHAR(20) 套餐 是 否 绑 定 话机 
PAY_TYPE CHAR(2) 缴费 渠道 
STATUS_CODE CHAR(3) 账户 状态 
DUE_CHARGE NUMERIC 当月 应 缴 金额 
CROSS CHG NUMERIC 结算 费用 总 额 
ACT_PAID NUMERIC 当月 实 缴 金额 
RENT_FEE NUMERIC 租 费 
MOBILE FEE NUMERIC 本 地 通话 费 
LONG_FEE NUMERIC 本 地 国内 长 途 费 
INTLONG_FEE NUMERIC 本 地 国际 长 途 费 
ROAM_FEE NUMERIC 漫游 费 

账户 | ROAM INTLONG FEE NUMERIC 漫游 国际 长 途 费 

信息 | ROAM_LONG_FEE NUMERIC 漫游 国内 长 途 费 
DATA_FEE NUMERIC 数据 业务 费 
INCREMENT_FEE NUMERIC 增值 业务 费 
SMS_FEE NUMERIC 点 对 点 短信 费 
SPECIAL_FEE NUMERIC 特 服 业务 费 
MON_FEE NUMERIC 包月 费 
OTHER_FEE NUMERIC 其 他 费 
SP_FEE NUMERIC SP 业务 费 
CONSENT_FEE NUMERIC 最 低 承 诺 应 收费 
DELQ_CNT_CURR NUMERIC 本 次 欠 费 持续 时 间 
DELQ_AMT_CURR NUMERIC 本 次 欠 费 总 额 
AVG_PAY NUMERIC 月 均 缴费 额 

行为 | TOTAL PAY NUMERIC 缴费 总 额 

信息 | DELQ_CNT_EVER NUMERIC 累计 欠 费 次 数 
DELQ HALT CNT EVER NUMERIC 累计 欠 费 停机 次 数 


续 表 


类 别 列 名 称 类 型 描 
CALL_LENGTH NUMERIC 通话 时 长 
CALL_CNT NUMERIC 通话 次 数 
CALL_CHG NUMERIC 通话 费用 
FREE_LENGTH NUMERIC 免费 通话 时 长 
FREE_CNT NUMERIC 免费 通话 次 数 
IN_CALL_LENGTH NUMERIC 呼 入 通话 时 长 
IN CALL CNT NUMERIC 呼 入 通话 次 数 
IN CALL CHG NUMERIC 呼 入 通话 费用 
OUT_CALL_LENGTH NUMERIC 呼出 通话 时 长 
OUT_CALL_CNT NUMERIC 呼出 通话 次 数 
OUT CALL CHG NUMERIC 呼出 通话 费用 
IN FREE LENGTH NUMERIC 呼 入 免费 通话 时 长 
IN_FREE_CNT NUMERIC 呼 入 免费 通话 次 数 
OUT_FREE_LENGTH NUMERIC 呼出 免费 通话 时 长 
OUT_FREE_CNT NUMERIC 呼出 免费 通话 次 数 
IN_PK_CALL_LENGTH NUMERIC 忙 时 呼 入 通话 时 长 

行为 | IN_PK_CALL_CNT NUMERIC 忙 时 呼 入 通话 次 数 

信息 | IN PK CALL CHG NUMERIC 忙 时 呼 入 通话 费用 
OUT_PK_CALL_LENGTH NUMERIC 忙 时 呼出 通话 时 长 
OUT_PK_CALL_CNT NUMERIC 忙 时 呼出 通话 次 数 
OUT PK CALL CHG NUMERIC 忙 时 呼出 通话 费用 
IN_OP_CALL_LENGTH NUMERIC 闲 时 呼 入 通话 时 长 
IN_OP_CALL_CNT NUMERIC 闲 时 呼 人 通话 次 数 
IN_OP_CALL_CHG NUMERIC 闲 时 呼 入 通话 费用 
OUT_OP_CALL_LENGTH NUMERIC 闲 时 呼出 通话 时 长 
OUT_OP_CALL_CNT NUMERIC 闲 时 呼出 通话 次 数 
OUT OP CALL CHG NUMERIC 闲 时 呼出 通话 费用 
PK_CALL_LENGTH NUMERIC 忙 时 通话 时 长 
PK_CALL_CNT NUMERIC 忙 时 通话 次 数 
PK CALL CHG NUMERIC 忙 时 通话 费用 
OP_CALL_LENGTH NUMERIC 闲 时 通话 时 长 
OP_CALL_CNT NUMERIC 闲 时 通话 次 数 
OP CALL CHG NUMERIC 闲 时 通话 费用 
PK FREE LENGTH NUMERIC 忙 时 免费 通话 时 长 
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类 别 列 名 称 类 型 dH xk 
PK FREE CNT NUMERIC 忙 时 免费 通话 次 数 
OP FREE LENGTH NUMERIC 闲 时 免费 通话 时 长 
OP_FREE_CNT NUMERIC 闲 时 免费 通话 次 数 
WK_CALL_LENGTH NUMERIC 平时 通话 时 长 
WK CALL CNT NUMERIC 平时 通话 次 数 
WK CALL CHG NUMERIC 平时 通话 费用 
HL_CALL_LENGTH NUMERIC 假日 通话 时 长 
HL_CALL_CNT NUMERIC 假日 通话 次 数 
HL CALL CHG NUMERIC 假日 通话 费用 
LOC CALL LENGTH NUMERIC 区 内 通话 时 长 
LOC_CALL_CNT NUMERIC 区 内 通话 次 数 
LOC CALL CHG NUMERIC 区 内 通话 费用 
DD_CALL_LENGTH NUMERIC 国内 长 途 通话 时 长 
DD_CALL_CNT NUMERIC 国内 长 途 通 话 次 数 
DD CALL CHG NUMERIC 国内 长 途 通 话费 用 
IDD_CALL_LENGTH NUMERIC 国际 长 途 通 话 时 长 

,.., | IDD CALL CNT NUMERIC 国际 长 途 通 话 次 数 

IDD_CALL_CHG NUMERIC 国际 长 途 通 话费 用 
DD PK CALL LENGTH NUMERIC 国内 长 途 忙 时 通话 时 长 
DD PK CALL CNT NUMERIC 国内 长 途 忙 时 通话 次 数 
DD OP CALL LENGTH NUMERIC 国内 长 途 闲 时 通话 时 长 
DD_OP_CALL_CNT NUMERIC 国内 长 途 闲 时 通话 次 数 
DD_WK_CALL_LENGTH NUMERIC 国内 长 途 平时 通话 时 长 
DD_WK_CALL_CNT NUMERIC 国内 长 途 平 时 通话 次 数 
DD_HL_CALL_LENGTH NUMERIC 国内 长 途 假日 通话 时 长 
DD HL CALL CNT NUMERIC 国内 长 途 假日 通话 次 数 
IDD_PK_CALL_LENGTH NUMERIC 国际 长 途 忙 时 通话 时 长 
IDD_PK_CALL_CNT NUMERIC 国际 长 途 忙 时 通话 次 数 
IDD OP CALL LENGTH NUMERIC 国际 长 途 闲 时 通话 时 长 
IDD_OP_CALL_CNT NUMERIC 国际 长 途 闲 时 通话 次 数 
IDD WK CALL LENGTH NUMERIC 国际 长 途 平时 通话 时 长 
IDD WK CALL CNT NUMERIC 国际 长 途 平时 通话 次 数 
IDD_HL_CALL_LENGTH NUMERIC 国际 长 途 假日 通话 时 长 
IDD_HL_CALL_CNT NUMERIC 国际 长 途 假日 通话 次 数 
DDA_PK_CALL_LENGTH NUMERIC 长 途 忙 时 通话 时 长 


续 表 


类 别 列 名 称 类 型 描述 
DDA_PK_CALL_CNT NUMERIC 长 途 忙 时 通话 次 数 
DDA OP CALL LENGTH NUMERIC 长 途 闲 时 通话 时 长 
DDA_OP_CALL_CNT NUMERIC 长 途 闲 时 通话 次 数 
DDA_WK_CALL_LENGTH NUMERIC 长 途 平时 通话 时 长 
DDA_WK_CALL_CNT NUMERIC 长 途 平时 通话 次 数 
DDA_HL_CALL_LENGTH NUMERIC 长 途 假日 通话 时 长 
DDA_HL_CALL_CNT NUMERIC 长 途 假日 通话 次 数 
DDA_CALL_LENGTH NUMERIC 长 途 通话 时 长 
DDA_CALL_CNT NUMERIC 长 途 通 话 次 数 
DDA_CALL_CHG NUMERIC 长 途 通 话费 用 
RM CALL LENGTH NUMERIC 国内 漫游 通话 时 长 
RM_CALL_CNT NUMERIC 国内 漫游 通话 次 数 
RM CALL CHG NUMERIC 国内 漫游 通话 费用 
IRM_CALL_LENGTH NUMERIC 国际 漫游 通话 时 长 
IRM_CALL_CNT NUMERIC 国际 漫游 通话 次 数 
IRM CALL CHG NUMERIC 国际 漫游 通话 费用 

| RMA_CALL_LENGTH NUMERIC 漫游 通话 时 长 

T RMA_CALL_CNT NUMERIC 漫游 通话 次 数 
RMA CALL CHG NUMERIC 漫游 通话 费用 
MBX_CNT NUMERIC 语音 信箱 /移动 秘书 次 数 
VAS_CNT NUMERIC 增值 服务 次 数 
VAS CHG NUMERIC 增值 服务 费用 
HVAS_CNT NUMERIC 高 额 增 值 服务 次 数 
HVAS CHG NUMERIC 高 额 增 值 服务 费用 
SMS_CNT NUMERIC SMS 次 数 
SMS CHG NUMERIC SMS 费用 
SMS CP CNT NUMERIC 发 向 竞争 对 手 的 SMS 次 数 
SP_CNT NUMERIC SP 次 数 
SP CHG NUMERIC SP 费用 
EBIZ CNT NUMERIC 电子 商务 次 数 
EBIZ CHG NUMERIC 电子 商务 费用 
VH_CALL_CNT NUMERIC 高 额 呼叫 次 数 
VL CALL CNT NUMERIC 特长 呼叫 次 数 
L CALL CNT NUMERIC 长 时 呼叫 次 数 
M_CALL_CNT NUMERIC 一 般 呼 叫 次 数 
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类 别 列 名 称 类 型 d 3x 
S CALL CNT NUMERIC 短 时 呼叫 次 数 
VS_CALL_CNT NUMERIC 超 短 话 单 次 数 
VL_FREE_CNT NUMERIC 特长 免费 呼叫 次 数 
L_FREE_CNT NUMERIC 长 时 免费 呼叫 次 数 
M_FREE_CNT NUMERIC 一 般 免 费 呼叫 次 数 
S_FREECNT NUMERIC 短 时 免费 呼叫 次 数 
VS_FREE_CNT NUMERIC 超 短 免费 话 单 次 数 
LOC_VH_CALL_CNT NUMERIC 区 内 高 额 呼叫 次 数 
LOC VL CALL CNT NUMERIC 区 内 特长 呼叫 次 数 
LOC L CALL CNT NUMERIC 区 内 长 时 呼叫 次 数 
LOC_M_CALL_CNT NUMERIC 区 内 一 般 呼 叫 次 数 
LOC S CALL CNT NUMERIC 区 内 短 时 呼叫 次 数 
LOC_VS_CALL_CNT NUMERIC 区 内 超 短 话 单 次 数 
DDA VH CALL CNT NUMERIC 长 途 高 额 呼叫 次 数 
DDA_VL_CALL_CNT NUMERIC 长 途 特长 呼叫 次 数 
DDA_L_CALL_CNT NUMERIC 长 途 长 时 呼叫 次 数 
| DDA M CALL CNT NUMERIC 长 途 一 般 呼叫 次 数 
es DDA S CALL CNT NUMERIC 长 途 短 时 呼叫 次 数 
DDA_VS_CALL_CNT NUMERIC 长 途 超 短 话 单 次 数 
RMA_VH_CALL_CNT NUMERIC 漫游 高 额 呼叫 次 数 
RMA_VL_CALL_CNT NUMERIC 漫游 特长 呼叫 次 数 
RMA_L_CALL_CNT NUMERIC 漫游 长 时 呼叫 次 数 
RMA_M_CALL_CNT NUMERIC 漫游 一 般 呼叫 次 数 
RMA_S_CALL_CNT NUMERIC 漫游 短 时 呼叫 次 数 
RMA_VS_CALL_CNT NUMERIC 漫游 超 短 话 单 次 数 
PK_VH_CALL_CNT NUMERIC 忙 时 高 额 呼叫 次 数 
PK_VL_CALL_CNT NUMERIC 忙 时 特长 呼叫 次 数 
PK_L_CALL_CNT NUMERIC 忙 时 长 时 呼叫 次 数 
PK_M_CALL_CNT NUMERIC 忙 时 一 般 呼叫 次 数 
PK_S_CALL_CNT NUMERIC 忙 时 短 时 呼叫 次 数 
PK VS CALL CNT NUMERIC 忙 时 超 短 话 单 次 数 
OP_VH_CALL_CNT NUMERIC 闲 时 高 额 呼叫 次 数 
OP_VL_CALL_CNT NUMERIC 闲 时 特长 呼叫 次 数 
OP L CALL CNT NUMERIC 闲 时 长 时 呼叫 次 数 
OP_M_CALL_CNT NUMERIC 闲 时 一 般 呼 叫 次 数 


续 表 


类 别 列 名 称 类 型 d 述 
OP_S_CALL_CNT NUMERIC 闲 时 短 时 呼叫 次 数 
OP_VS_CALL_CNT NUMERIC 闲 时 超 短 话 单 次 数 
HL_VH_CALL_CNT NUMERIC 假日 高 额 呼叫 次 数 
HL_VL_CALL_CNT NUMERIC 假日 特长 呼叫 次 数 
HL L CALL CNT NUMERIC 假日 长 时 呼叫 次 数 
HL_M_CALL_CNT NUMERIC 假日 一 般 呼 叫 次 数 
HL S CALL CNT NUMERIC 假日 短 时 呼叫 次 数 
HL_VS_CALL_CNT NUMERIC 假日 超 短 话 单 次 数 
IP_CALL_LENGTH NUMERIC IP 长 途 通话 时 长 
IP_CALL_CNT NUMERIC IP 长 途 通话 次 数 
IP CALL CHG NUMERIC IP 长 途 通话 费用 
IP DD CALL LENGTH NUMERIC IP 国内 长 途 通话 时 长 
IP_DD_CALL_CNT NUMERIC IP 国内 长 途 通话 次 数 
IP_DD_CALL_CHG NUMERIC IP 国内 长 途 通话 费用 
IP IDD CALL LENGTH NUMERIC IP 国际 长 途 通话 时 长 
IP_IDD_CALL_CNT NUMERIC IP 国际 长 途 通话 次 数 

.. | IP.IDD CALL CHG NUMERIC IP 国际 长 途 通 话费 用 

T FW_LENGTH NUMERIC 呼 转 到 固 话 通话 时 长 
FW_CNT NUMERIC 呼 转 到 固 话 通话 次 数 
FW_CHG NUMERIC 呼 转 到 固 话 通话 费用 
XFW_LENGTH NUMERIC 呼 转 到 小 灵通 通话 时 长 
XFW_CNT NUMERIC 呼 转 到 小 灵通 通话 次 数 
XFW CHG NUMERIC 呼 转 到 小 灵通 通话 费用 
CFW_LENGTH NUMERIC 呼 转 到 竞争 对 手 号 码 通话 时 长 
CFW_CNT NUMERIC 呼 转 到 竞争 对 手 号 码 通话 次 数 
CFW CHG NUMERIC 呼 转 到 竞争 对 手 号 码 通话 费用 
FWA_LENGTH NUMERIC 呼 转 通话 时 长 
FWA_CNT NUMERIC 呼 转 通话 次 数 
FWA CHG NUMERIC 呼 转 通话 费用 
CC_LENGTH NUMERIC 呼叫 竞争 对 手 客 服 号 通话 时 长 
CC CNT NUMERIC 呼叫 竞争 对 手 客 服 号 通话 次 数 
AVG_SLP LENGTH NUMERIC 平均 睡眠 时 间 
MAX SLP LENGTH NUMERIC 最 长 睡眠 时 间 
AVG_DDA_SLP_LENGTH NUMERIC 长 途 平均 睡眠 时 间 
AVG_DDA_SLP_LENGTH NUMERIC 长 途 最 长 睡眠 时 间 
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续 表 

类 别 列 名 称 类 型 描 述 
AVG_LOC_SLP_LENGTH NUMERIC 区 内 通话 平均 睡眠 时 间 

行为 | AVG_LOC_SLP_LENGTH NUMERIC 区 内 通话 最 长 睡眠 时 间 

信息 | AVG_SMS_SLP_LENGTH NUMERIC SMS 平均 睡眠 时 间 
AVG_SMS_SLP_LENGTH NUMERIC SMS 最 长 睡眠 时 间 
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10.3.3 分 析 过 程 


重 入 网 识别 主要 包括 基于 手机 IMEI 串 号 和 基于 呼叫 指纹 两 种 方法 。IMEI 
(International Mobile Equipment Identity, 国 际 移动 装备 辨识 码 ) 是 由 15 位 数字 组 成 的 电 
子 串 号 ,与 每 台 手 机 一 一 对 应 ,而 且 是 全 球 唯一 的 。 每 部 手机 在 组 装 完毕 后 都 被 赋予 一 个 全 
球 唯 一 的 一 组 号 码 , 这 个 号 码 从 生产 到 交付 使 用 都 将 被 制造 生产 的 厂商 记录 。 但 是 ,由 于 种 
种 原因 目前 大 多 数 CDMA 用 户 (WAP 用 户 除外 ) 无 法 获取 IMEI 串 号 。 此 外 ,一 些 水 货 手 
机 的 IMEI 串 号 无 效 等 原因 ,无 法 完全 通过 手机 IMET 串 号 识别 重 入 网 。 通 常情 况 下 ,将 基 
于 手机 IMEI 串 号 和 基于 呼叫 指纹 两 种 方法 联合 使 用 ,以 确保 重信 网 识别 的 准确 率 。 所 谓 
“呼叫 指纹 ”是 指 用 户 在 使 用 运营 商 的 产品 和 服务 过 程 中 所 产生 的 交往 圈 、 呼 叫 特征 ,短信 特 
征 、 位 置 特 征 、 客 服 特征 和 终端 特征 等 信息 。 由 于 这 些 信息 对 于 一 个 用 户 而 言 是 相对 稳定 
的 , 且 不 同 用 户 之 间 具 有 较 大 差异 ,因此 可 用 于 识别 重 入 网 。 基 于 呼叫 指纹 的 重 入 网 识别 是 
根据 历史 用 户 已 经 发 生 的 通话 行为 ,经 过 分 析 , 从 通话 呼叫 行为 中 发 现 用 户 通话 习惯 .行为 
和 交际 圈 等 特征 ,利用 这 些 显 著 特 征 标识 用 户 ,建立 用 户 的 呼叫 行为 档案 ,如 同 用 户 的 “ 指 
纹 ? 一 样 ,每 个 用 户 的 呼叫 行为 都 不 尽 相同 。 通 过 广泛 的 用 户 呼叫 行为 分 析 , 建 立 呼叫 指纹 
库 。 在 识别 重 入 网 用 户 时 ,首先 在 新 发 展 用 户 群 中 过 滤 出 疑似 重 入 网 用 户 ,然后 对 疑似 用 户 
进行 呼叫 行为 分 析 , 同 样 可 以 获得 用 户 呼叫 行为 特征 ,将 新 的 呼叫 行为 特征 纳入 已 经 建立 的 
呼叫 指纹 库 , 通 过 对 比 新 旧 呼 叫 指纹 的 相似 度 , 最 终 判 断 疑似 用 户 是 否 为 重 入 网 用 户 。 

基于 呼叫 指纹 的 重 人 网 识别 过 程 描述 如 下 : 

1. 确定 待 识别 用 户 和 新 入 网 用 户 清单 

呼叫 指纹 识别 需要 建立 新 入 网 用 户 群 和 待 识别 用 户 群 两 个 数据 集 。 

2. 选择 特征 变量 和 数据 清洗 

首先 需要 通过 数据 挖掘 方法 筛选 合适 的 特征 变量 , 表 10. 10 列 出 了 部 分 关键 指标 。 

表 10.10 重 入 网 识别 的 部 分 关键 指标 


序号 指标 名 称 序号 指标 名 称 
1 | 前 10 个 最 频繁 通话 号 码 重合 率 7 | 通话 小 区 数 的 变异 率 
2 | 前 10 个 最 长 的 总 通话 时 长 号 码 重合 率 8 | 本 网 交际 圈 人 数 的 重合 率 
3 | 前 10 个 最 长 的 单 次 通话 时 长 号 码 重合 率 9 | 他 网 交际 圈 人 数 的 变异 率 
4 | 前 10 个 总 通话 次 数 最 多 号 码 重合 率 10 | 前 10 个 最 频繁 通话 时 段 的 重合 率 
5 | 前 10 个 点 对 点 发 送 短信 最 频繁 号 码 的 重合 率 | ， F 
6 | 点 对 点 短信 次 数 的 变异 率 i ` 


3. 建立 呼叫 指纹 库 
建立 呼叫 指纹 库 的 关键 是 筛选 出 可 以 辨别 不 同 用 户 身 份 的 特征 号 码 库 ,并 逐一 计算 其 
权重 , 即 建立 特征 号 码 权重 库 。 首 先 ,统计 用 户 拨打 的 所 有 特征 电话 号 码 的 频次 ,从 高 到 低 
排序 ,剔除 拨打 频次 最 高 的 一 部 分 公共 号 码 以 及 拨打 频次 最 低 的 一 部 分 稀疏 号 码 ,这 些 号 码 
对 于 区 分 用 户 的 呼叫 指纹 没有 实际 意义 ; 然后 ,对 剩余 的 特征 号 码 赋予 不 同 的 权重 ,建立 特 
征 号 码 权 重 库 。 

特征 号 码 权重 的 计算 采用 TF-IDF 算法 , 它 是 由 Salton 和 McGill 在 1983 年 针对 向 量 
空间 信息 检索 范例 (vector space information retrieval paradigm) 提 出 的 文档 特征 表示 方法 。 
其 中 ,TF(Term Frequency) 为 主题 词 频 度 , 即 出 题词 c; 在 文档 4 中 出 现 的 次 数 , 记 为 fs. 
d); DF(Document Frequency) 为 出 题词 的 文档 频 度 , 即 文档 集中 出 现 出 题词 c; 的 文档 数 
量 , 记 为 df(t;); IDF(Inverse Document Frequency) 为 出 题词 的 反 文档 频 度 , 即 


id fa) Vog(7715 ) 

其 中 n 表示 文档 集 的 文档 总 数 。TF-IDF 算法 是 将 文档 以 特征 向 量 表示 为 d(w， 
wa Stt) ,对 应 项 1; 的 权重 wi; 二 tf(ti,d) X id fti) o 

重 入 网 识别 引入 TF-IDF 算法 的 优势 在 于 随 着 用 户 拨打 特征 号 码 2; 次 数 的 增加 , 即 随 
着 用 户 拨打 相同 的 特征 号 码 次 数 的 增加 , 则 1 了 (i;,d) 的 值 增加 ,该 特征 号 码 的 权重 将 增加 ， 
这 与 我 们 通常 的 理解 一 致 ; 如 果 该 特征 号 码 被 许多 用 户 所 拨打 , 则 idf (ii) 的 值 反 而 减 小 ， 
特征 号 码 的 权重 将 减 小 ,表明 该 特征 号 码 对 辨别 用 户 身 份 的 作用 将 减 小 ,这 是 因为 如 果 该 特 
征 号 码 也 被 其 他 用 户 频 繁 地 拨打 ,如 公共 号 码 , 则 其 分 辨 个 体 特征 的 能 力 相 对 减弱 ,所 以 其 
权重 应 当 减 小 ,以 便 使 那些 更 能 分 辨 用 户 是 否 具 有 相似 呼叫 指纹 的 特征 号 码 的 权重 相应 
增 大 。 

采用 TF-IDF 算法 在 一 定 程度 上 减少 了 “噪声 ”号码 对 判别 准确 度 的 影响 ,突出 重要 的 
特征 号 码 , 同 时 又 考虑 了 整个 呼叫 指纹 库 呼叫 特征 之 间 的 关系 。 因 此 如 果 样 本 量 足 够 ,最 终 
重信 网 识别 具有 较 高 的 准确 率 。 

4. 计算 呼叫 指纹 相似 度 

呼叫 指纹 相似 度 是 指 新 人 网 用 户 与 待 识别 用 户 之 间 的 相似 程度 , 即 每 个 特征 变量 的 重 
合 率 或 变异 率 的 加 权 值 ,其 计算 公式 为 : 

S = arzı Hazxz ar, (10. 6) 

其 中 ,zi 代表 新 人 网 用 户 与 待 识别 用 户 在 第 ; 个 特征 变量 的 重合 率 或 变异 率 ,ai 代表 每 个 特 
征 变 量 的 权重 ,根据 其 在 重信 网 识别 中 的 重要 程度 可 以 动态 调整 。 

5. 设 定 呼叫 指纹 相似 度 阅 值 

大 于 该 贱 值 的 待 识别 用 户 对 可 界定 为 疑似 重 入 网 用 户 。 

6. 验证 

通过 电话 外 呼 或 客户 资料 比照 可 以 对 疑似 重 入 网 用 户 进行 验证 以 最 终 锁 定 , 检 验 模型 
的 准确 性 及 覆盖 率 是 否 达到 预期 要 求 , 如 果 达 不 到 要 求 则 需要 调整 模型 。 

锁定 重 入 网 用 户 后 ,需要 进一步 将 重信 网 用 户 与 订购 套餐 /产品 、 渠 道 等 进行 关联 分 析 , 发 
现 引 起 重 入 网 的 症结 所 在 ,推荐 合适 的 套餐 ,降低 客户 离 网 率 和 客户 欠 费 风险 以 及 经 营 风险 。 

基于 手机 IMEI 串 号 的 重 入 网 识别 需要 进行 数据 清洗 以 排除 噪声 , 即 排除 错误 的 、 非 法 
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烧 录 的 、 空 缺 的 IMEI 串 号 等 ,然后 对 IMEI 串 号 进行 逐一 扫描 和 匹配 ,定位 重 入 网 用 户 。 
10.3.4 结果 


利用 基于 手机 IMEI 串 号 和 基于 呼叫 指纹 两 种 重信 网 用 户 识别 方法 ,对 某 市 2008 4E 9 
月 流失 的 CDMA 用 户 45537 户 和 2008 年 9 一 10 月 两 个 月 新 发 展 的 CDMA JH P 135638 P! 
进行 重 入 网 甄别 ,通过 匹配 找到 拨打 过 相同 特征 号 码 的 用 户 对 共计 193281 ,其 中 大 部 分 流 
失 用 户 在 新 人 网 用 户 中 都 能 找到 多 于 1 个 的 匹配 用 户 ,逐一 计算 相似 度 , 设 定 一 定 的 相似 度 
阅 值 ,发 现 疑 似 重 入 网 用 户 12596 ,对 这 些 疑 似 重 入 网 用 户 进行 客户 资料 比 对 和 电话 回访 进 
行 确认 ,最 终 锁定 重信 网 用 户 10791, 占 2008 4E 9 月 流失 的 CDMA 用 户 的 23.7%。 

重 入 网 识别 的 实际 意义 和 作用 体现 在 : 

1. 调整 新 入 网 政策 

(1) 针对 部 分 客户 自身 的 流动 性 和 不 稳定 性 ,对 具有 流动 性 的 客户 可 以 采取 针对 性 的 
捆绑 措施 ,挽留 客户 。 

(2) 对 于 新 发 展 用 户 中 不 少 用 户 入 网 定位 不 准 , 进 行 深度 客户 细 分 ,并 有 针对 性 地 提前 
开展 主动 的 市 场 梳理 ,减少 重 人 网 现象 。 

(3) 对 重 入 网 用 户 开 展 重 入 网 原因 和 政策 了 解 程度 的 调查 ,调整 产品 和 套餐 漏洞 ,减少 
成 本 和 收入 损失 。 

2. 调整 代理 商 佣金 政策 

代理 商 佣金 侧重 奖励 新 发 展 的 非 重 入 网 用 户 ,适当 降低 新 发 展 的 重 入 网 用 户 的 佣金 
标准 。 

此 外 ,通过 用 户 `, 业 务 .品牌 .渠道 .消费 层次 和 生命 周期 等 多 方面 对 重信 网 现象 进行 分 
析 , 找 出 不 足 并 采取 措施 。 


10.4 WAP 日 志 挖掘 


中 国 通 信 业 的 快速 发 展 令 世 界 瞩目 ,截至 2009 年 7 月 ,中 国 移动 电话 用 户 达到 7.03 亿 
户 。 全 球 移动 电话 用 户 数 约 44 亿 , 普 及 率 达 65%; 全 球 互 联网 用 户 数 超过 15 亿 , 普 及 率 达 
22%。 目 前 ,中 国 的 移动 手机 用 户 数 和 互联 网 用 户 数 均 居 世界 第 一 。 随 着 3G (the 3rd 
Generation) 牌 照 陆续 发 放 ,3G 的 到 来 加 速 了 移动 通信 和 互联 网 的 融合 ,并 呈现 三 个 趋势 ， 
即 互联 网 接 和 人 的 移动 化 .移动 业务 的 互联 网 化 .互联 网 业务 的 移动 化 。 

由 于 传统 语音 业务 的 价格 持续 下 滑 ,促使 运营 商 开 始 转变 收入 重点 ,将 数据 业务 逐步 调 
整 为 未 来 利润 的 主要 来 源 ,数据 业务 被 普遍 认为 是 电信 运营 商 的 下 一 个 金 矿 。 而 WAP 
(Wireless Application Protocol) 业 务 是 当前 网 络 环境 下 最 重要 的 数据 业务 之 一 ,几乎 所 有 
的 手机 终端 均 内 置 了 WAP 浏览 器 ,使 得 大 量 成 熟 的 数据 业务 以 WAP 作为 重要 的 推广 渠 
道 ,WAP 业务 在 运营 商 的 业务 架构 中 地 位 越 来 越 重要 ,其 用 户 数 量 也 在 飞速 发 展 。 但 是 随 
着 用 户 数 量 的 快速 增长 ,WAP 业务 质量 却 没有 跟 上 用 户 发 展 的 脚步 。WAP 业务 同 质 化 严 
重 ,SP(Service Provider, 服 务 提供 商 ) 的 注意 力 集中 在 如 何 从 用 户 身 上 获得 更 多 的 资费 ,其 
至 利用 WAP 业务 中 的 一 些 技术 漏洞 强行 绑 定 用 户 , 引 起 大 量 的 投诉 。 但 随 着 电信 和 运营 商 


对 WAP 业务 管理 的 逐步 规范 ,对 WAP 用 户 的 使 用 行为 进行 深入 挖掘 成 为 必然 ,并 具有 重 
要 的 现实 意义 。 
10.4.1 定义 

WAP 日 志 在 一 定 程度 上 反映 了 WAP 用 户 的 使 用 行为 习惯 和 特征 ,主要 包括 系统 日 志 
和 用 户 访问 日 志 。 系 统 日 志 记 录 了 WAP 服务 器 在 运行 过 程 中 系统 的 各 种 状态 ,为 改进 服 
务 器 性 能 、 故 障 排除 等 提供 了 重要 的 参考 依据 ,可 以 帮助 系统 维护 人 员 快 速 定位 故障 并 解 
决 ; 用 户 访 问 日 志 记 录 了 用 户 浏 览 WAP 页 面 时 的 各 种 信息 ,包括 用 户 访问 时 间 、 访 问 页 面 
地 址 .访问 机 型 参数 ,用户 IP 地 址 和 用 户 标 识 等 。 

不 同 的 系统 会 产生 不 同 格式 的 WAP 日 志 , 根 据 系统 性 能 需求 系统 管理 员 可 以 配置 服 
务 器 产生 日 志 的 复杂 度 。 在 服务 器 空间 有 限 且 性 能 不 高 的 情况 下 ,可 以 缩减 日 志 参 数 , 仅 记 
录 与 用 户 访问 信息 相关 的 内 容 。 在 服务 器 硬件 条 件 允 许 的 情况 下 ,建议 尽 可 能 多 地 记录 用 
户 访问 参数 ,因为 在 日 志 提 取 阶 段 很 难 判断 日 志 参 数 在 未 来 挖掘 中 的 价值 , 尽 可 能 多 地 保留 
以 避免 具有 潜在 价值 的 数据 丢失 。 

这 里 的 WAP 日志 是 基于 微软 公司 的 Internet Information Services 5. 0 生成 的 ,按照 
日 期 对 日 志 进行 命名 ,每 天 的 用 户 访 问 日 志 存储 在 一 个 文本 文件 中 ,如 20091001. txt。 日 志 
文件 中 各 参数 之 间 用 空格 分 开 , 一 行为 一 个 用 户 的 访问 行为 。 

WAP 日 志 的 具体 参数 名 称 和 含义 如 表 10. 11 所 示 。 

表 10.11 WAP 日 志 参 数 


参数 名 称 & X 功 能 实 A 
Date 日 期 用 户 访问 WAP 的 日 期 如 2009-07-25 
Time 时 间 用 户 访问 WAP 的 时 间 如 00:00:01 
c-IP 用 户 访问 IP 访问 用 户 的 IP 地 址 如 211. 137. 167. 133 
CS-username 访问 用 户 名 访问 WAP 的 用 户 名 
s-IP 服务 器 端 了 ied kiss iens 如 211. 157. 8. 68 
— 服务 器 端口 rie WAP 页 面 对 应 的 服务 器 如 8080 
CS-method 请 求 方式 客户 端 操作 请 求 的 种 类 如 GET,POST 
CS-URkstem ”| 请 求 内 容 名 称 | 用 户 访问 的 WAP 页 面 地 址 如 /desk/cxzd/intro. asp 
Cs-UREauery | 请 求 内 容 参数 aa WAP 页 面 地址 所 带 的 d m 9998.MISC _ 
sc-status 状态 代码 用 户 访问 WAP 页 面 的 状态 代码 如 200,302 
CS-User-Agent | 用 户 代理 用 户 访问 WAP 所 使 用 的 手机 型 号 | 如 Nokia3108 
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10.4.2 数据 准备 


数据 准备 阶段 的 工作 主要 是 选择 合适 的 数据 源 ,整理 分 析 所 需 的 WAP 日 志 数据 ,对 原 
始 数据 进行 检查 和 预 处 理 , 生 成 新 的 衍生 变量 ,并 整理 成 适合 分 析 使 用 的 数据 宽 表 。 

数据 准备 过 程 如 下 : 

1. 选择 数据 分 析 范围 

根据 需求 选取 中 国 移动 梦 网 某 一 WAP 产品 2008 年 3 一 6 月 连续 四 个 月 的 用 户 访问 日 
志 作 为 分 析 对 象 。 

2. 收集 原始 数据 

WAP 产 品 日 志 是 原始 文件 ,和 互联 网 站 日 志 类 似 , 其 中 记录 了 用 户 在 浏览 WAP 页 面 
过 程 中 的 大 量 信息 。 不 同 的 服务 器 系统 所 产生 的 日 志 略 有 不 同 , 大 多 都 包括 用 户 IP 地 址 、 
访问 终端 类 型 访问 时 间 、 所 访问 页 面 地 址 等 ,而 移动 梦 网 WAP 产品 同时 还 可 以 获得 用 户 
手机 号 码 ,这 是 区 别 于 互联 网 日 志 的 一 个 重要 特点 , 即 电 信 业 务 最 大 的 特质 一 一 用 户 个 性 化 
标识 。 针 对 用 户 的 个 性 化 行为 分 析 将 紧密 围绕 着 这 一 标识 进行 。 

3. 数据 清洗 

日 志 一 般 存 储 在 文本 文件 中 ,虽然 大 多 是 按照 一 定 规则 记录 的 ,但 在 后 继 的 分 析 中 通过 
文本 文件 进行 信息 的 查找 较为 不 便 , 故 需要 把 日 志 内 容 导 入 到 数据 库 或 更 好 的 存储 介质 中 
以 备 操作 。 此 过 程 尽 量 避 免 将 日 志 中 包含 的 信息 删 掉 ,让 日 志 信 息 尽 量 完整 地 在 新 存储 介 
质 中 得 到 展现 。 

4. 检查 数据 质量 

可 以 通过 对 所 提取 数据 的 时 间 分 布 进行 直观 观察 ,对 异常 时 间 点 进行 针对 性 分 析 ; 也 
可 以 观察 所 提取 参数 的 数值 分 布 ,对 其 可 靠 性 进行 评估 。 由 于 用 户 使 用 WAP 的 行为 具有 
较 强 的 周期 性 ,可 以 比 对 不 同 周期 的 相同 时 间 点 ,检验 异常 数据 。 

5. 计算 衍生 变量 

对 WAP 用 户 的 使 用 行为 数据 进行 加 工 处 理 , 生 成 新 的 衍生 变量 。 

6. 合并 生成 宽 表 

按照 用 户 ID 合并 地 域 .终端 .产品 内 容 和 用 户 四 类 指标 ,生成 一 张 数据 宽 表 ,其 中 每 行 
代表 一 个 用 户 ,每 列 代表 一 个 变量 ,如 表 10. 12 所 示 。 


表 10.12 数据 宽 表 

名 称 *$ x x) 能 W 明 
日 志 中 用 户 参 数 的 前 四 位 标识 
地 域名 称 | 省 份 名 称 标识 分 析 结 果 所 对 应 的 省 份 ”| 用 户 所 在 区 域 ,可 通过 对 照 区 域 
" 编号 表 确 定 访问 用 户 所 在 区 域 

数据 产生 的 时 间 ,以 | 反映 产品 运营 过 程 中 的 时 间 | . 

时 间 i pin 日 志 中 的 时 间 参 数 
从 产品 投入 运营 至 A 对 日 志 中 的 用 户 标识 进行 排 
edt 今 访问 过 WAP 产品 ee 重 ,计算 当天 访问 用 户 数 ,再 与 

的 用 户 总 数 之 前 累计 用 户 数 相 加 
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浏 览 用 
户 数 


统计 期 内 浏览 过 
WAP 产品 的 用 户 数 


当日 访问 WAP 产品 的 用 户 数 


对 日 志 中 的 用 户 标识 进行 排 重 


新 增 浏览 
用 户 数 


统计 期 内 浏览 用 户 
数 较 前 一 日 增加 的 
数量 


衡量 浏览 WAP 产品 的 用 户 数 
量变 化 情况 ,常用 于 异常 检验 


当日 与 前 一 日 浏览 用 户 数 之 差 


订阅 用 
户 数 


有 过 订阅 频道 行为 
的 用 户 数 


反映 用 户 订阅 WAP 业务 的 活 
跃 程度 (由 于 该 WAP 产品 采 
用 类 似 于 RSS 的 订阅 模式 ,在 
用 户 浏览 内 容 前 先 要 进行 频 
道 订阅 ) 


用 户 订阅 成 功 后 ,访问 频道 日 
志文 件 将 记录 用 户 所 访问 的 频 
道 参数 ,根据 参数 即 可 判断 用 
户 是 否 为 订阅 用 户 


订购 套餐 
用 户 数 / 
收费 用 
户 数 


订购 收费 套餐 的 用 
户 数量 


描述 用 户 对 价格 敏感 的 程度 ， 
以 及 对 收费 频道 的 认可 度 ( 该 
WAP 分 为 收费 频道 和 免费 频 
道 两 种 ,对 于 优质 内 容 用 户 需 
要 付费 才能 浏览 


计算 日 志文 件 中 访问 “订购 成 
功 ” 页 面 的 用 户 数 进而 得 到 当 
天 订购 套餐 用 户 数 


新 增收 费 
用 户 数 


当日 新 增 的 收费 用 
户 数 


描述 收费 用 户 数 的 变化 情况 ， 
可 了 解 WAP 产品 收入 的 变化 
趋势 


计算 当日 收费 用 户 数 和 前 一 日 
收费 用 户 数 之 差 


主动 浏览 
用 户 数 


浏览 详细 内 容 的 用 
户 数 


描述 用 户 对 每 日 更 新 内 容 的 
兴趣 程度 (该 WAP 产品 采用 
先 浏览 内 容 摘要 ,用 户 对 详细 
内 容 感 兴趣 再 点 击 浏览 完整 
的 文章 内 容 的 模式 ) 


提取 日 志 中 访问 详细 内 容 页 面 
的 用 户 行为 记录 


主动 浏览 
用 户 占 比 


主动 浏览 用 户 在 浏 
览 用 户 的 占 比 


反映 对 WAP 产品 感 兴趣 的 用 
户 占 整体 用 户 群 的 比例 


主动 浏览 用 户 数 除 以 浏览 用 
户 数 


浏览 用 户 
占 比 


浏览 用 户 在 累计 访 
问 用 户 的 占 比 


用 户 对 WAP 产品 整体 的 认 
知 度 


浏览 用 户 数 除 以 累计 访问 用 
户 数 


人 均 主 动 
浏览 次 数 


统计 期 内 平均 每 个 
用 户 的 主动 浏览 
次 数 


用 户 对 产品 内 容 的 兴趣 程度 


计算 所 有 用 户 访问 详细 页 面 时 
产生 的 页 面 参数 的 总 数 ,然后 
除 以 访问 用 户 数 


人 均 订阅 
频道 数 


累计 访问 用 户 中 平 
均 每 个 用 户 订阅 频 
道 数 量 


用 户 对 于 WAP 产品 的 频道 内 
容 的 兴趣 度 


订阅 用 户 数 除 以 累计 访问 用 
户 数 


添加 频道 
用 户 数 


统计 期 内 添加 频道 
的 用 户 数 


反映 每 日 用 户 添 加 频道 的 活 
跃 程度 ,可 以 得 出 用 户 心理 的 
周期 性 规律 


删除 频道 
用 户 数 


统计 期 内 删除 频道 
的 用 户 数 


反映 每 日 用 户 删除 频道 的 
情况 
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名 称 & x 功 能 说 明 
用 户 访问 WAP 服务 器 时 ,日 
志 会 记录 用 户 的 user-agent 即 
终端 各 称 | 发 并 对 应 的 终端 | 标识 分 析 结果 对 应 的 终端 。 “| 手机 标识 ,简称 UA。 利 用 UA 
与 终端 名 称 的 对 应 表 得 到 准确 
的 终端 型 号 
数据 产生 的 时 间 , 以 | 反映 产品 运营 过 程 的 变化 
时 间 。 | E n 日 志 中 的 时 间 参数 
从 产品 投入 运营 至 对 于 不 同型 号 终端 的 用 户 行为 
累计 浏览 | 今 ,曾经 通过 终端 访 | 衡量 产品 投入 运营 后 各 终端 | 日 志 进 行 排 重 ,得 到 当天 访问 
用 户 数 “| 问 WAP 产品 的 用 户 | 用 户 的 规模 用 户 数 ,再 与 之 前 累计 用 户 数 
总 数 相 加 
mom og 先 计 期 内 通过 终端 对 用 户 行为 数据 基于 用 户 标 
Mad 用 uiu WAP 产品 的 | 当日 访问 WAP 产品 的 用 户 数 | 识 进行 排 重 ,得 到 当天 浏览 用 
用 户 数 户 数 
统计 期 内 通过 终端 | 衡量 各 终端 用 户 浏览 产品 的 | 、 E 
BEADLE | 浏览 的 用 户 数 较 前 | 变化 情况 ,常用 于 趋势 分 析 以 | AAN [RON HN 
一 日 增加 的 数量 。 ”| 及 异常 检验 
用 户 订阅 成 功 访问 频道 时 ,日 
订阅 用 | 某 终端 有 过 订阅 频 | 各 终端 用 户 订阅 频道 的 活跃 | 志 将 记录 用 户 所 访问 的 频道 参 
户 数 | 道行 为 的 用 户 数 | 程度 数 ,根据 参数 即 可 判断 用 户 是 
否 为 订阅 用 户 
订购 套餐 以 UA 为 标识 计算 日 志 中 访问 
终 | 用 户 数 / | 某 终端 订购 收费 套 了 “订购 成 功 ”页面 的 用 户 数 ， 
端 | 收 费 用 | 餐 的 用 户 数 各 终端 对 价格 敏感 的 程度 。 | 得 到 当天 某 终端 订购 套餐 用 
类 | 户 数 户 数 
新 增收 费 | 统计 期 内 某 终端 新 | 某 终端 收费 用 户 数 的 变化 | 某 终端 的 当日 收费 用 户 数 减 去 
用 户 数 “| 增 的 收费 用 户 数 | 情况 前 一 日 收费 用 户 数 
主动 浏览 | 某 终端 用 户 浏览 详 | 各 终端 用 户 对 每 日 更 新 内 容 | 提取 日 志 中 某 终端 访问 详细 内 
用 户 数 “| 细 内 容 的 数量 的 兴趣 程度 容 页 面 的 行为 记录 
- 某 终端 主动 浏览 用 | 反映 菜 终端 对 WAP EREN | LL ; 
主动 浏览 | 户 在 浏览 用 户 的 | 趣 的 用 户 占 整体 用 户 群 的 | 主动 浏览 用 户 数 除 以 浏览 用 
用 户 占 比 户 数 
占 比 比例 
某 终端 浏览 用 户 数 numm 
浏览 用 户 某 终端 用 户 对 WAP 产品 整体 | 浏览 用 户 数 除 以 黑 计 访问 用 
占 比 tt 的 认 知 度 户 数 
| 统计 期 内 菜 终端 平 、 | 计算 菜 终端 的 所 有 用 户 访问 详 
Amm | 均 每 个 用 户 的 主动 | depa ATEA E | 细 页 面 产生 的 页 面 参数 的 总 
浏览 次 数 数 , 然 后 除 以 访问 用 户 数 
人 均 订阅 nd 各 终端 用 户 对 于 WAP 产品 的 | 订阅 用 户 数 除 以 累计 访问 用 
mum (Di e 频道 内 容 的 兴趣 度 户 数 
CELESTE] 
添加 频道 | 统计 期 内 某 终 端 添 | 每 日 某 终端 用 户 添加 频道 的 | 页 面 的 访问 记录 ,以 终端 型 号 、 
用 户 数 | 加 频道 的 用 户 数 。。 | 活路 程度 用 户 手机 号 为 标识 ,计算 添加 
频道 用 户 的 总 数 
MRSE | HPLC ECHNUN 
MIRAGE ene | XANm^MENGNNR x 


续 表 


各 HW & Xx 功 能 "ET 
数据 产生 的 时 间 , 以 | 
um ER EN 反应 频道 数据 的 变化 趋势 。 | 日 志 中 的 时 间 参 数 
用 户 访问 WAP 服务 器 时 日志 
数据 对 应 的 频道 | 会 记录 用 户 所 访问 的 频道 参 
频道 名 称 | 名 称 标识 分 析 结 果 对 应 的 频道 。 | 数 ,利用 参数 与 频道 名 称 的 对 应 
表 可 获得 用 户 访问 的 频道 名 称 
UU AE e dpa m | 先 利用 用 户 访问 记录 得 出 所 访 
频道 类 型 | 频道 的 分 类 ug aac | 同 频道 的 参数 ,再 利用 频道 
RE 数 对 应 表 可 获得 访问 频道 类 型 
先 利 用 用 户 访问 记录 得 出 所 访 
RDR | 收费 /免费 方式 计 费 | 频道 的 收费 方式 问 的 频道 参数 ,再 利用 频道 参 
数 对 应 表 可 获得 频道 计 费 方式 
分 析 每 日 用 户 访问 “订阅 成 功 ” 
, , 页 面 的 日 志 , 通 过 频道 参数 对 
Ba a LIP | Mionam — | 应 表 可 获得 用 户 新 订阅 的 频道 
i 名 称 ,再 将 新 的 订阅 信息 插入 
到 用 户 频道 订阅 表 中 存储 
统计 周期 内 对 用 户 访问 “订阅 
, 反映 各 频道 订阅 用 户 数 的 变 | 成 功 "页 面 的 所 产生 的 日 志文 
E nre, 08/27. | 化 情况 ,便于 对 频道 发 展 情况 | 件 进行 分 析 , 通 过 频道 参数 对 
ri 做 出 预测 应 表 获 得 用 户 新 订阅 的 频道 
" p 
s 对 用 户 访问 “删除 频道 成 功 ” 页 
NEN 统计 期 内 ,用 户 取消 面 产生 的 日 志 进行 分 析 ,通过 
Ba P 订阅 某 频道 的 用 LU MEONE 频道 参数 对 应 表 获 得 用 户 退 订 
户 数 频道 名 称 ,并 插入 到 用 户 订阅 / 
退 订 频道 历史 数据 库 
利用 用 户 访问 详细 内 容 页 面 时 
gag | TE TETEL 日 志 记录 的 频道 参数 ,通过 频 
ART | 道 详细 内 容 的 用 户 | 用 户 对 频道 内 容 的 兴趣 度 。 | 道 参 数 对 应 表 获 得 所 要 统计 的 
总 数 频道 数据 ,再 结合 用 户 标识 得 
出 主动 浏览 用 户 数 
利用 用 户 访问 频道 页 面 时 日 志 
, 记录 的 频道 参数 ,通过 频道 参 
2: ctm 用 户 对 频道 的 兴趣 程度 数 对 应 表 获 得 所 要 统计 的 频道 
名 称 ,再 结合 用 户 标识 得 到 济 
览 用 户 总 数 
统计 期 内 某 频 道 济 
主动 浏览 | 览 详细 页 面 的 用 户 主动 浏览 用 户 数 除 以 浏览 用 
用 户 占 比 | 数 在 所 有 访问 该 频 | 频道 内 容 对 用 户 的 吸引 程度 “| 户 数 
道 用 户 数 的 占 比 
人 主动 | 先 计 期 内 平均 每 个 利用 日 志 记 录 的 访问 频道 参 
dan | 用 户 浏览 该 频道 详 | 反映 频 道 的 粘性 数 ,算出 访问 频道 页 面 的 次 数 ， 
细 内 容 的 次 数 除 以 主动 浏览 用 户 数 
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续 表 
EET á Xx 功 人 能 & os 
唯一 标识 用 户 的 字 x: 卓志 中 记录 访问 用 户 的 用 户 
maD [Tx 唯一 标识 用 户 dni 
根据 日 志文 件 中 记录 的 用 户 访 
反映 地 域 差异 对 于 用 户 使 用 | 问 IP 地 址 ,与 各 地 市 IP 地 址 
和 你 | UMEN 行为 的 影响 表 进 行 比照 获得 用 户 使 用 业务 
所 在 地 
用 
js 用 户 访问 WAP 服务 器 时 ,日 
类 志 会 记录 用 户 的 user-agent( 即 
same mo EORR | RAAE TAER | 手机 标识 ,简称 UA), 利 用 UA 
与 终端 名 称 的 对 应 表 获得 准确 
的 终端 型 号 
频道 订购 | 用 户 是 否 订阅 该 频 | 反映 当前 用 户 群 订阅 频道 的 | 通过 用 户 订阅 频道 历史 数据 表 
EN | 道 (包括 22 列 ,每 列 | ide des 
为 一 个 频道 ) 
10.4.3 ”分 析 过 程 
具体 的 分 析 过 程 如 下 : 
1. 数据 整合 


由 于 数据 仓库 中 地 区 ,终端 .频道 等 相对 独立 ,所 以 需要 先 将 这 些 数据 进行 整合 ,最 终 得 
到 完整 的 用 户 订阅 频道 信息 表 。 先 利用 用 户 订 阅 信息 表 中 的 user_id, city_id, region_id, 
mobile type 等 字段 进行 关联 ,把 之 前 可 读 性 较 差 的 数字 表示 形式 替换 为 具有 直观 意义 的 字 
符 串 形式 (在 进行 挖掘 过 程 中 就 不 需要 再 到 历史 数据 中 查找 相关 参数 ) ,然后 将 表 中 的 null 
值 蔡 换 成 了 ,这样 订 阅 频道 的 相关 信息 就 以 布尔 值 F 和 T 工 表示 。 最 后 对 处 理 结果 进行 检 
查 ,提高 数据 质量 。 

2. RŽ 

因为 TwoStep 聚 类 算法 可 以 自行 根据 数据 的 分 布 进行 类 数 选择 ,所 以 先 利用 
TwoStep, 并 将 类 别 数 作为 后 继 k-means 聚 类 的 输入 参数 ,以 获得 数量 较 平均 且 类 之 间距 离 
较 大 的 最 佳 聚 类 结果 。 

3. 结果 展示 

网 络 图 可 以 直观 展现 聚 类 结果 ,例如 订阅 娱乐 频道 的 用 户 数 中 有 很 多 同时 订阅 了 焦点 
评论 ,在 网 络 图 中 两 个 频道 点 之 间 会 形成 一 条 很 粗 的 线 , 以 表示 两 者 之 间 呈 较 强 的 相关 性 。 
各 点 之 间 的 线段 即 表示 两 个 频道 的 关系 ,线段 越 粗 相 关 性 越 大 , 越 细 相关 性 越 小 。 网 络 图 提 
供 动态 的 展现 方式 ,分 析 人 员 可 以 通过 改变 条 件 , 以 便 将 关联 度 高 (线条 越 粗 ) 的 各 组 频道 关 
系 从 繁杂 的 关系 中 提取 出 来 。 

4. 解释 和 评价 

首先 对 聚 类 结果 进行 直观 观察 ,通过 分 布 了 解 聚 类 的 用 户 群 ,然后 将 聚 类 结果 作为 输出 
变量 ,地 区 终端 类 型 .各 频道 的 订阅 情况 作为 输入 变量 ,利用 决策 树 进行 聚 类 结果 的 解析 ， 
从 而 以 逻辑 表达 式 解 释 聚 类 结果 。 


10.4.4 结果 


根据 上 述 分 析 过 程 ,分 析 结果 如 表 10. 13 所 示 。 
表 10.13 WAP 日 志 聚 类 结果 
序号 | 类 别名 称 订购 行为 特点 营销 方案 


可 以 定向 推送 证 券 相关 的 增值 信息 (例如 手机 证 券 报 ), 也 可 
将 与 证 券 相 关 的 内 容 进行 打包 ,作为 提升 WAP 业务 订购 的 
此 类 用 户 对 证 券 . 财 | 一 种 手段 。 关 注 证 券 相关 内 容 的 用 户 往往 是 非常 活跃 的 用 
经 极其 关注 户 ,各 种 信息 的 获取 需求 很 大 ,是 点 击 次 数 产生 的 主要 用 户 
群 。 基 于 此 用 户 群 特质 ,可 通过 WAP 内 和 嵌 广 告 的 方式 转化 
为 收入 ,达到 最 佳 的 盈利 模式 


1 证 券 型 


通过 此 类 用 户 订购 情况 看 ,可 以 判断 此 用 户 群 以 年 轻 学 生 群 
_，| 体 为 主 ,接收 新 鲜 事 物 很 快 ,对 价格 敏感 ,有 较 强 的 发 表 观 点 
此 类 用 户 对 星座 、 动 
2 娱乐 型 漫 非常 关注 的 意愿 ,渴望 自我 实现 。 可 以 增加 评论 等 社区 功能 ,为 用 户 
主动 推荐 “娱乐 "“ 时 尚 ”等 年 轻 人 可 能 感 兴趣 的 频道 ,充分 
迎合 年 轻 群体 的 需求 


通过 此 类 用 户 订 阅 情况 看 ,可 以 判断 此 用 户 群 具有 男性 化 的 
特质 。 对 于 体育 方面 的 内 容 可 以 进行 领域 细 分 (如 体育 可 分 
为 篮球 、 足 球 等 ), 提 高 用 户 获取 信息 的 准确 性 。 也 可 引入 
体育 型 、 | 此 类 用 户 对 体育 . 军 WAP 赛事 直播 的 方法 ,让 对 比赛 感 兴趣 但 无 法 收看 电视 转 
3 男性 化 | ERENER 播 的 人 群 ,通过 文字 的 方式 实时 了 解 赛事 情况 ,从 而 提高 产 

品 的 粘性 。 对 于 军事 方面 的 内 容 , 可 以 增加 时 事 政治 方面 的 
内 容 推荐 ,让 用 户 有 一 个 更 加 全 面 的 军事 视角 。 根 据 男性 特 
质 该 用 户 群 还 可 以 提供 “创业 ”“ 女 性 ”等 相关 内 容 , 以 开辟 
吸引 此 类 用 户 新 的 内 容 领域 


此 类 用 户 对 军事 、 焦 | 此 用 户 群 所 感 兴趣 的 内 容 有 和 较 强 的 深度 ,可 归于 成 熟 型 用 
4 成 熟 型 ”| 点 评论 ,证 券 很 感 | 户 。 对 这 类 用 户 最 重要 的 就 是 所 选 内 容 的 价值 , 若 能 够 满足 
兴趣 其 对 深度 内 容 的 需求 ,单个 用 户 的 ARPU 值 会 较 高 


通过 网 络 图 可 以 了 解 WAP 产品 整体 用 户 类 型 情况 ,在 营销 资源 有 限 而 导致 不 能 针对 
分 类 用 户 群 进行 精确 营销 的 前 提 下 ,可 先 对 整体 用 户 群 进行 营销 ,大 大 提高 运营 分 析 转 化 为 
实际 运营 的 可 行 性 。 

每 个 频道 在 网 络 图 中 均 以 一 个 点 表示 ,而 点 之 间 的 线段 表示 频道 间 关系 的 关联 程度 。 
图 10. 12 是 将 所 有 的 关系 进行 呈现 ,关系 看 起 来 很 复杂 ,可 以 通过 调节 阔 值 加 以 过 滤 ,进而 
发 现 强 关 联 。 
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10.12 初始 的 网 络 图 


设 定 适当 的 阔 值 ,形成 图 10. 13 所 示 的 关系 图 。 由 图 10. 13 可 知 , 该 WAP 业务 订阅 最 
多 的 四 个 频道 分 别 是 娱乐 ,轻松 一 刻 、 生 活 和 焦点 评论 ,并 且 各 频道 之 间 都 存在 较 强 的 关联 ， 
形成 了 WAP 业务 客户 群 频道 订阅 的 基础 组 合 。 
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10.13 过 滤 后 的 网 络 图 
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第 11 章 An 识 


知识 是 人 们 日 常生 活 及 社会 活动 中 常用 术语 之 一 。 例 如 和 人们 常 说 “知识 就 是 力量 ”“ 应 
该 多 学 点 知识 "等 。 什 么 是 知识 ?知识 有 哪些 特点 ? 它 与 平常 所 说 的 信息 有 什么 区 别 ? 如 
何 表示 知识 ? 知识 表示 与 人 工 智能 ,知识 工程 的 关系 如 何 ? 针 对 上 述 问 题 ,本 章 将 从 知识 的 
定义 ,分 类 、 度 量 和 表示 等 几 方面 进行 阐述 。 


11.1 概述 


1. 数据 

人 类 赖 以 生存 的 空间 是 一 个 物质 的 世界 ,同时 又 是 一 个 信息 的 世界 。 在 这 个 不 断 变 化 
的 世界 中 ,无论 是 政治 、 经 济 、 军 事 方面 ,还 是 科技 文化、 教育 等 方面 ,时 时 刻 刻 都 在 产生 大 
量 的 信息 。 谁 能 及 时 地 掌握 有 用 信息 ,并 能 把 有 关 信息 关联 起 来 加 以 充分 利用 , 谁 就 能 在 激 
烈 的 竞争 中 立 于 不 败 之 地 。 随 着 社会 的 发 展 和 进步 ,信息 在 人 类 生活 中 越 来 越 扮演 着 极其 
重要 的 角色 。 但 是 ,信息 是 需要 用 一 定 的 形式 表示 才能 被 记载 和 传递 ,尤其 是 使 用 计算 机 进 
行 信息 的 存储 和 处 理 时 ,更 需要 用 一 组 符号 及 其 组 合 进行 表示 。 像 这 样 用 一 组 符号 及 其 组 
合 表示 的 信息 称 为 数据 。 

由 此 可 见 , 这 里 所 说 的 数据 已 不 仅仅 是 通常 意义 下 的 “ 数 ”, 而 是 概念 上 的 延伸 , 泛 指 对 
客观 事物 的 数量 属性、 位 置 及 其 相互 关系 的 抽象 表示 。 它 既 可 以 是 一 个 数 ,如 整数 小数、 
正 数 和 负数 ,也 可 以 是 由 一 组 符号 组 成 的 字符 串 ,如 姓名 ,性 别 、 地 址 或 消息 等 。 

数据 和 信息 是 两 个 密切 相关 的 概念 。 数 据 是 信息 的 载体 和 表示 ,信息 是 数据 在 特定 场 
合 下 的 具体 含义 ,换言之 信息 是 数据 的 语义 ,只 有 把 两 者 密切 地 结合 起 来 ,才能 实现 对 现实 
世界 中 某 一 具体 事物 的 描述 。 另 外 ,数据 和 信息 又 是 两 个 不 同 的 概念 。 对 于 同一 个 数据 ,在 
某 一 场合 下 可 能 表示 一 个 信息 ,但 在 另 一 场合 下 却 可 能 表示 另 一 个 信息 。 例 如 数字 6 是 一 
个 数据 , 既 可 以 表示 “6 本 书 ”“6 支 铅笔 ”, 也 可 以 表示 “6 个 人 ?或 “6 部 手机 ”等 。 同 样 ,对 同 
一 个 信息 ,在 不 同 场合 下 也 可 用 不 同 的 数据 表示 ,如 同 对 于 同样 的 一 句 话 ,不 同 的 人 会 用 不 
同 的 言语 来 表达 一 样 。 

2. 信息 

20 世纪 40 年 代 末 ,美国 数学 家 香农 提出 信息 炉 的 数学 公式 ,从 量 的 方面 描述 了 信息 传 
输 和 提取 问题 ,创立 了 信息 论 。 首 先 ,信息 论 在 通信 工程 领域 得 到 广泛 应 用 ,为 信息 科学 的 
研究 葛 定 了 初步 基础 。 

在 消息 传递 系统 中 所 传输 的 是 消息 ,但 消息 传递 过 程 中 ,最 普遍 却 容易 被 忽视 的 一 点 是 
接收 者 在 收 到 消息 之 前 是 不 知道 消息 具体 内 容 的 。 对 于 接收 者 而 言 ,消息 的 传递 过 程 是 一 
个 从 不 知 到 知 的 过 程 ,或 者 说 是 一 个 从 不 确定 到 确定 的 过 程 。 

从 通信 过 程 来 看 ,接收 者 的 所 谓 不 知 就 是 不 知道 发 送 端 将 发 送 描述 何 种 运动 状态 的 消 
息 。 例 如 看 天 气 预 报 前 ,并 不 清楚 天 气 将 如 何 ; 看 天 气 预报 后 ,这 种 不 确定 性 大 大 减 小 。 不 


原理 及 应 用 


确定 性 消除 了 ,接收 者 就 获得 了 信息 。 因 此 香农 认为 ,信息 是 被 消除 的 不 确定 性 。 
关于 信息 的 定义 ,后 来 的 学 者 又 有 种 种 讨论 。 由 于 信息 概念 的 复杂 性 ,在 定义 信息 时 必 
须 十 分 注意 定义 的 条 件 ,应 当 根据 不 同 的 条 件 区 分 不 同 的 层次 给 出 信息 的 定义 。 ied 
次 是 普遍 的 层次 ,也 是 无 条 件 约束 的 层次 , 称 之 为 本 体 论 层次 。 在 这 一 层次 上 定义 的 信息 
最 广义 的 信息 ,其 适用 最 广 。 然 后 ,如 果 引 入 一 个 条 件 加 以 约束 ， 则 最 高 层次 的 定义 就 变 为 
次 高 层次 的 定义 ,次 高 层次 信息 定义 的 适用 范围 比 最 高 层次 定义 的 适用 范围 要 窗 , 所 引入 的 
约束 条 件 越 多 ,定义 的 层次 越 低 ,所 定义 信息 的 适用 范围 就 越 窄 。 这 样 ,根据 引 入 条 件 的 不 
同 , 可 以 给 出 不 同 层次 和 不 同 适 用 范围 的 信息 定义 ,这 些 不 同 的 信息 定义 构成 了 信息 定义 的 
体系 , 即 : 
。 本 体 论 层次 的 信息 是 事物 运动 的 状态 和 状态 改变 的 方式 。 
。 认识 论 层次 的 信息 是 认识 主体 所 感知 或 所 表述 的 事物 运动 的 状态 和 方式 。 
。 语 法 信息 是 认识 主体 所 感知 或 所 表述 的 事物 运动 状态 和 方式 的 形式 化 关系 。 
。 语义 信息 是 认识 主体 所 感知 或 所 表述 的 事物 运动 状态 和 方式 的 逻辑 含义 。 
。 语 用 信息 是 认识 主体 所 感知 或 所 表述 的 事物 运动 状态 和 方式 相对 于 某 种 目的 的 
效用 。 
。 先 验 信息 是 指 观 察 者 在 观察 某 事物 之 前 通过 某 种 途径 所 感知 的 该 事物 运动 状态 和 
方式 。 
。 实 得 信息 是 指 在 观察 过 程 中 ,观察 者 通过 观察 所 新 感知 到 的 该 事物 运动 状态 和 
方式 。 
。 实在 信息 是 指 该 事物 实际 的 运动 状态 和 方式 ,这 也 是 在 理想 观察 条 件 下 观察 者 所 获 
得 的 关于 该 事物 的 全 部 信息 。 
上 述 语法 信息 、 语 义 信息 、 语 用 信息 、 先 验 信息 、 实 得 信息 和 实在 信息 都 是 认识 论 层 次 上 
的 各 种 信息 概念 。 进 一 步 , 如 果 不 仅 对 观察 者 施加 各 种 限制 条 件 ,而 且 对 所 观察 的 事物 也 规 
定 一 些 限 制 性 约束 , 则 会 得 到 层次 更 低 、 适 用 范围 更 小 的 信息 定义 。 例 如 ,如 果 限定 所 观察 
事物 的 运动 方式 是 随机 型 的 , 则 可 以 分 别 得 出 概率 性 的 实在 语法 信息 .概率 性 的 先 验 语法 信 
息 、 概 率 性 的 实 得 语法 信息 等 ; 如 果 限 定 所 观察 事物 的 运动 方式 是 半 随 机 型 的 , 则 可 以 分 别 
得 到 偶发 性 的 实在 语法 信息 、 偶 发 性 的 先 验 语法 信息 、 偶 发 性 的 实 得 语法 信息 等 ; 如 果 限 定 
所 观察 事物 的 运动 方式 是 确定 性 的 而 运动 状态 是 模糊 的 , 则 可 以 分 别 得 到 模糊 实在 语法 信 
息 、 模 糊 先 验 语法 信息 、 模 糊 实 得 语法 信息 等 。 类 似 的 情形 也 适用 于 语义 和 语 用 信息 。 总 
之 ,对 观察 者 ,观察 对 象 ( 即 事物 ) 以 及 观察 过 程 的 性 质 都 可 以 规定 各 种 不 同 的 条 件 , 因 此 可 
以 获得 层次 高 低 不 同 、 适 用 范围 各 异 的 各 种 信息 定义 。 
3. 知识 
从 古 希 腊 开 始 , 人 类 从 未 停止 对 于 知识 的 研究 与 探索 。 哲 学 家 研究 有 关 知 识 的 一 般 特 
性 与 规律 ,而 自然 科学 家 孜孜 不 倦 地 获取 具体 的 知识 。20 世纪 中 叶 后 ,这 种 研究 格局 发 生 
了 变化 。 由 于 知识 在 人 类 文明 中 发 挥 的 作用 越 来 越 大 ， 不 仅 是 哲学 家 、 雇 辑 学 家 、 教 育 学 家 
和 心理 学 家 ,而 且 计算 机 科学 家 都 在 认真 地 研究 知识 的 一 般 特 性 与 规律 。 这 是 因为 人 类 已 
经 进入 了 信息 化 社会 ,而 且 正在 向 知识 化 社会 迈进 。 
古 希 腊 哲 学 家 苏 格 拉 底 认为 知识 的 唯一 功能 是 自我 认识 , 即 人 的 智力 .道德 和 精神 的 生 
活 成 长 ; 毕 达 格拉 斯 认为 知识 的 目的 是 通过 使 用 知识 的 人 知道 他 想 说 什么 和 怎么 说 ,从 而 


使 其 行为 更 有 效 , 知 识 就 是 指 逻辑 .语法 和 修辞 ， 中 国 儒家 则 认为 知识 是 知道 说 什么 、 怎 么 
说 以 及 出 人 头 地 和 俗世 成 功 的 途径 。 对 于 道家 而 言 , 知 识 是 自我 认识 和 通 向 领情 智慧 的 
途径 。 

知识 工程 的 创始 人 Feigenbaum 教授 曾经 说 过 “知识 和 信息 不 一 样 ,知识 是 信息 经 过 加 
工整 理 .解释 .挑选 和 改造 形成 的 ”。 可 以 说 ,这 是 从 广义 信息 论 的 角度 对 知识 进行 定义 。 

如 上 所 述 ,信息 在 人 类 生活 中 占据 着 相当 重要 的 地 位 。 但 是 ,只 有 把 有 关 的 信息 关联 在 
一 起 时 才 具 有 实际 意义 。 一 般 地 ,把 有 关 信息 关联 在 一 起 形成 的 信息 结构 称 为 知识 。 一 些 
具有 代表 性 的 知识 定义 如 表 11. 1 所 示 。 

表 11.1 代表 性 的 知识 定义 
序号 知识 定义 


知识 是 通过 实践 研究、 联系 或 调查 获得 的 关于 事物 的 事实 和 状态 的 认识 


2 知识 是 对 科学 ,艺术 或 技术 的 理解 ,是 人 类 获得 的 关于 真理 和 原理 的 认识 总 和 


知识 是 人 们 在 长 期 的 生活 及 社会 实践 中 ,科学 研究 及 实验 中 积累 起 来 的 对 客观 世界 的 认 
识 与 经 验 , 人 们 把 实践 中 获得 的 信息 关联 在 一 起 ,就 获得 了 知识 


4 知识 是 把 有 关 信 息 关 联 在 一 起 所 形成 的 信息 结构 


5 知识 是 人 类 在 实践 的 基础 上 产生 又 经 过 实践 检验 的 对 客观 实际 可 靠 的 反映 


知识 是 人 脑 创新 的 成 果 , 是 人 类 智慧 的 结晶 。 智 慧 是 人 类 文明 的 源泉 ,是 推动 历史 发 展 的 
永恒 动力 ,是 生产 力 诸 要 素 中 的 核心 


知识 是 人 们 在 长 期 的 生活 及 社会 实践 .科学 研究 及 实验 中 积累 起 来 的 对 客观 世界 的 认 
识 与 经 验 , 人 们 把 实践 中 获得 的 信息 关联 在 一 起 ,就 获得 了 知识 。 信 息 之 间 有 多 种 关联 形 
式 ,其 中 用 得 最 多 的 一 种 是 “如 果 , 则 ”表示 的 关联 形式 ,反映 了 信息 间 的 某 种 因果 关系 。 例 
如 我 国 的 北方 人 经 过 多 年 的 观察 发 现 ,每 当 冬天 来 临时 ,就 会 看 到 一 群 群 的 大 雁 向 南方 飞 
去 ,于 是 把 “大 雁 南 飞 " 与 “冬天 将 要 来 临 ? 这 两 个 信息 关联 在 一 起 ,就 得 到 了 “如 果 大 雁 向 南 
飞 , 则 冬天 将 要 来 临 ? 这 样 一 条 知识 。 

知识 反映 了 客观 世界 中 事物 之 间 的 关系 ,不 同事 物 或 者 相同 事物 间 的 不 同 关 系 形成 了 
不 同 的 知识 。 例 如 “ 雪 是 白色 的 ”是 一 条 知识 ,反映 了 “ 雪 ” 与 “颜色 ”之 间 的 一 种 关系 ;“ 如 果 
头痛 且 流 涕 , 则 有 可 能 患 感冒 "是 一 条 知识 ,反映 了 “头痛 且 流 涕 "与 “可 能 患 感冒 "之 间 的 一 
种 因果 关系 。 

4. 信息 和 知识 的 关系 

马克 思 曾 说 过 “任何 科学 只 有 在 具有 数学 基础 以 后 ,才能 算得 上 是 真正 的 科学 (大 意 ) 。” 
我 们 首先 从 数学 的 角度 区 分 信息 和 知识 这 两 个 概念 。 

香农 曾经 对 信息 的 数学 本 质 进行 研究 ,提出 并 回答 了 从 数学 的 观点 看 ,信息 是 什么 的 问 
题 。 他 认为 信息 是 一 个 数学 量 ,用 来 消除 不 确定 性 。 这 种 不 确定 性 可 以 用 具有 概率 意义 的 
科 度量。 由 此 ,概率 论 成 为 研究 信息 论 的 基本 数学 工具 。 

如 前 所 述 ,知识 是 结构 化 的 信息 ,或 者 说 知识 是 用 于 消除 信息 的 无 结构 性 。 在 这 一 观点 
中 ,知识 的 数学 基础 应 该 和 信息 的 不 同 ,其 核心 不 是 概率 论 , 应 该 是 描述 结构 的 某 种 数学 模 
型 。 寻 求 并 分 析 这 种 结构 有望 建立 知识 的 数学 描述 。 目 前 ,国际 上 关于 知识 本 体 的 研究 备 
受 关注 ,证 实 了 知识 结构 性 是 一 个 根本 问题 的 观点 是 有 道理 的 ,本 体 就 是 知识 结构 性 的 基本 
描述 ,这 一 点 已 经 成 为 国内 外 有 关 专 家 的 共识 。 


ximus 


5. 表示 与 知识 表示 

表示 是 使 用 人 造 的 体系 (典型 的 例子 是 数学 ) 对 自然 界 事 物 的 运动 规律 进行 概括 和 抽象 
的 模型 ,而 这 一 模型 可 以 预言 自然 界 这 种 运动 的 所 有 情况 。 一 旦 这 样 的 表示 被 找到 ,人 们 就 
认为 这 是 对 这 类 运动 规律 更 深刻 的 认识 。 相 比 于 自然 的 表示 方法 , 它 具 有 抽象 性 、 深 刻 性 和 
简洁 性 。 对 这 种 抽象 意义 上 的 表示 ,自然 界 中 的 物体 是 否 可 被 感知 ,对 表示 没有 什么 直接 的 
关系 。 换 言 之 ,表示 与 自然 现象 之 间 的 形态 上 可 以 没有 任何 相同 之 处 , 它 是 自然 现象 在 人 为 
体系 (公理 ) 下 的 一 种 解释 。 

传统 意义 上 ,知识 表示 (knowledge representation) 是 概括 智能 行为 的 模型 ,属于 人 工 智 
能 的 范畴 ,其 特点 是 : 

。 智能 行为 所 特有 的 灵活 性 问题 (常识 问题 ) 不 能 概括 为 一 类 简洁 的 理论 , 它 是 大 量 小 

理论 的 集合 。 

。 人 工 智 能 受到 计算 装置 的 约束 。 这 就 导致 所 采用 的 表示 必须 同时 满足 "刻画 智能 现 

象 "与 “计算 装置 可 接受 ”这 两 个 有 时 是 矛盾 的 条 件 。 正 是 对 这 两 个 条 件 的 不 同 侧重 
导致 了 对 表示 的 不 同 认 识 ,并 由 此 产生 不 同 的 方法 论 。 

可 以 说 ,知识 表示 是 众多 理论 与 技术 的 交叉 学 科 , 主 要 源 于 : 

。 逻辑 提供 推理 规则 和 形式 化 结构 

。 本 体 定义 应 用 领域 的 各 种 存在 

。 计算 支持 知识 表示 从 哲学 到 应 用 层面 的 实现 

Al S: UE 38 8 ,知识 表示 不 可 能 明确 ,无 法 判别 陈述 是 否 矛 盾 或 元 余 ; 如 果 没 有 本 体 ， 
词汇 ,符号 等 就 不 能 被 很 好 地 定义 和 使 用 ,概念 就 不 会 具有 很 好 的 一 致 性 ; 如 果 缺 乏 可 计算 
的 模型 ,逻辑 和 本 体 就 不 能 由 计算 机 程序 实现 ,就 不 能 获得 具体 应 用 。 因 此 知识 表示 是 逻辑 
和 本 体 为 了 实现 某 些 领域 特定 应 用 的 任务 而 建立 的 计算 模型 。 

6. 人 工 智 能 与 知识 工程 

人 工 智 能 主要 研究 采用 人 工 的 方法 和 技术 模仿 、 延 伸 和 扩展 人 的 智能 ,实现 机 器 智能 。 
有 人 把 人 工 智 能 划分 为 两 大 类 : 一 类 是 符号 智能 , 另 一 类 是 计算 智能 。 符 号 智能 是 以 知识 
为 基础 ,通过 推理 进行 问题 求解 , 即 所 谓 传统 的 人 工 智能 ; 计算 智能 是 以 数据 为 基础 ,通过 
训练 建立 联系 进行 问题 求解 ,如 人 工 神 经 网 络 .遗传 算法 、 模 糊 系 统 和 人 工 生命 等 都 可 以 包 
括 在 计算 智能 的 范畴 。 

传统 的 人 工 智 能 主要 运用 知识 进行 问题 求解 。 从 实用 观点 看 ,人 工 智能 是 一 门 知 识 工 
程 学 , 即 以 知识 为 对 象 ,研究 知识 表示 方法 .知识 运用 和 知识 获取 。 

自 1956 年 提出 人 工 智 能 以 来 ,已 经 取得 了 很 大 的 进展 和 成 功 。1976 年 Newell 和 
Simon 提出 了 物理 符号 系统 假设 ,认为 物理 符号 系统 是 表现 智能 行为 的 必要 和 充分 条 件 。 
这 样 ,可 以 把 任何 信息 加 工 系 统 看 作 一 个 具体 的 物理 系统 ,如 人 的 神经 系统 、 计 算 机 的 构造 
系统 等 。 进 入 20 世纪 80 年 代 后 ,Newell 等 人 又 致力 于 SOAR 系统 的 研究 ,该 系统 是 以 知 
识 块 (chunking) 理 论 为 基础 ,利用 基于 规则 的 记忆 ,获取 搜索 控制 知识 和 操作 符 , 实 现 通 用 
问题 求解 。Minsky 从 心理 学 的 角度 出 发 ,认为 人 们 在 日 常 的 认识 活动 中 ,使 用 了 大 批 从 以 
前 的 经 验 中 获取 并 经 过 整理 的 知识 ,该 知识 是 以 一 种 类 似 框架 的 结构 存在 于 人 脑 中 。 因 此 ， 
20 世纪 70 年 代 他 提出 了 框架 知识 表示 方法 。 到 80 年 代 , Minsky 认为 人 的 智能 根本 不 存 
在 统一 的 理论 。1985 年 ,他 在 自己 发 表 的 著作 中 指出 思维 社会 是 由 大 量具 有 某 种 思维 能 力 


的 单元 组 成 的 复杂 社会 。 以 McCarthy 和 Nilsson 等 为 代表 ,主张 用 逻辑 研究 人 工 智 能 , 即 
用 形式 化 的 方法 描述 客观 世界 。 逻 辑 学 派 在 人 工 智能 研究 中 ,强调 的 是 概念 化 知识 表示 、 模 
型 论语 义 ,演绎 推理 等 。McCarthy 主张 任何 事物 都 可 以 用 统一 的 逻辑 框架 表示 ,在 常识 推 
理 中 以 非 单调 逻辑 为 中 心 。 传 统 的 人 工 智 能 研究 思路 是 “ 自 上 而 下 ”, 其 目标 是 让 机 器 模仿 
人 ,认为 人 脑 的 思维 活动 可 以 通过 一 些 公式 和 规则 定义 ,因此 希望 通过 把 人 类 的 思维 方式 翻 
译 成 程序 语言 输入 机 器 ,使 机 器 有 朝 一 日 产生 像 人 类 一 样 的 思维 能 力 。 这 一 理论 主导 了 早 
期 的 人 工 智能 研究 。 

1977 年 ,第 五 届 国际 人 工 智 能 联合 会 议 上 美国 斯 坦 福 大 学 计算 机 系 Feigenbaum 教授 
作 了 关于 “人 工 智 能 的 艺术 ”The Art of Artificial Intelligence) 的 讲演 ,提出 知识 工程 这 一 
名 词 ,指出 “知识 工程 是 应 用 人 工 智能 的 原理 与 方法 ,对 那些 需要 专家 知识 才能 解决 的 应 用 
难题 提供 求解 手段 ,恰当 地 运用 专家 知识 的 获取 .表达 和 推理 过 程 的 构成 与 解释 ,是 设计 基 
于 知识 的 系统 的 重要 技术 问题 ”。 

从 时 间 上 划分 ,知识 工程 的 发 展 大 体 经 历 了 三 个 时 期 , 即 : 

(1) 大 约 从 1965 年 至 1974 年 为 实验 性 系统 时 期 。1965 年 Feigenbaum 教授 与 其 他 科 
学 家 合作 ,研制 出 DENDRAL 专家 系统 。 这 是 一 种 推断 分 子 结构 的 计算 机 程序 ,该 系统 贮 
存 有 非常 丰富 的 化 学 知识 ,其 解决 问题 的 能 力 达到 专家 水 平 , 甚 至 在 某 些 方面 超过 同行 专家 
的 能 力 ,其 中 包括 其 设计 者 。DENDRAL 标志 着 专家 系统 的 诞生 。 

(2) 从 1975 年 至 1980 年 为 MYCIN 时 期 。20 世纪 70 年 代 中 期 MYCIN 专家 系统 研 
制 成 功 , 它 是 一 种 用 医学 诊断 治疗 感染 性 疾病 的 计算 机 程序 “专家 系统 ”。MYCIN 是 规范 
性 计算 机 专家 系统 的 代表 ,其 他 许多 专家 系统 都 是 在 MYCIN 的 基础 上 研制 而 成 的 。 
MYCIN 不 但 具有 较 高 的 性 能 ,而 且 具 有 解释 和 知识 获取 功能 ,可 以 用 英语 与 用 户 对 话 , 回 
答 用 户 提出 的 问题 ,还 可 以 在 专家 指导 下 学 习 医 疗 知识 ,该 系统 还 使 用 了 知识 库 的 概念 和 不 
精确 推理 技术 。MYCIN 对 计算 机 专家 系统 的 理论 和 实践 都 具有 较 大 的 贡献 。 

(3) 1980 年 以 来 为 知识 工程 的 产品 在 产业 部 门 开 始 应 用 的 时 期 。 人 工 智能 的 研究 表 
明 ,专家 之 所 以 成 为 专家 ,主要 在 于 他 们 拥有 大 量 的 专门 知识 ,特别 是 长 期 从 实践 中 总 结 和 
积累 的 经 验 技能 知识 。 从 知识 工程 的 发 展 历史 可 以 看 出 ,知识 工程 是 伴随 着 “专家 系统 ”的 
研究 而 产生 的 。 实 际 上 ,知识 工程 的 焦点 就 是 知识 。 知 识 工 程 领域 的 主要 研究 方向 包含 知 
识 获取 、 知 识 表 示 和 推理 方法 等 ,其 研究 目标 是 挖掘 和 抽取 人 类 知识 ,用 一 定 的 形式 加 以 表 
示 , 使 之 成 为 计算 机 可 操作 的 对 象 ,从 而 使 计算 机 具有 一 定 人 类 的 智能 。 


11.2 知识 分 类 


随 着 人 类 对 于 知识 内 涵 认 识 的 不 断 深 入 ,从 不 同 角度 对 知识 进行 了 分 类 。 从 某 种 意义 
而 言 ,知识 分 类 恰恰 是 建立 在 对 知识 内 涵 的 理解 基础 上 ,分 类 原则 本 身 也 在 一 定 程度 上 体现 
出 人 类 在 不 同 社会 经 济 形态 下 对 知识 作用 的 不 同 认识 。 

德国 哲学 家 马克 斯 ， 含 勤 将 知识 划分 为 应 用 知识 ` 学 术 知识 和 精神 知识 三 大 类 。 在 此 
基础 上 ,著名 美 籍 经 济 学 家 弗 里 效 ， 马 克 卢 普 在 20 世纪 中 叶 提 出 了 知识 产业 理论 ,按照 认 
识 者 的 主观 解释 分 析 知 识 的 种 类 ,认为 知识 包括 五 个 方面 的 内 容 , 即 实用 知识 .学 术 知识 、 闲 
谈 和 消 遗 知识 、 精 神 知识 和 不 需要 的 知识 (多 余 的 知识 )。 另 外 ,马克 卢 普 还 从 科学 的 与 历史 
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的 、 一 般 抽 象 的 与 特殊 具体 的 、 分 析 的 与 经 验 的 ,永恒 的 与 暂时 的 角度 ,对 知识 类 别 进行 了 概 
要 分 析 。 随 后 ,马克 卢 普 又 从 世俗 知识 、 科 学 知识 、 人 文 知识 ,社会 科学 知识 、 艺 术 知 识 ,没有 
文字 的 知识 (如 视听 艺术 ) 等 角度 对 知识 进行 分 类 ,提出 知识 具有 真实 、 美 丽 和 优秀 等 性 质 。 

随 着 知识 经 济 理论 的 逐渐 发 展 ,经 合 组 织 (Organization of Economic Cooperation and 
Development,OECD) 对 知识 的 分 类 成 为 目前 最 具 权 威 和 流行 的 。 根 据 该 组 织 的 划分 标准 ， 
将 知识 归纳 为 四 种 类 型 , 即 事实 知识 (know-what) ,原理 知识 (know-why) .技能 知识 (know- 
how) 和 人 力 知识 (know-who)。 以 上 是 从 知识 使 用 的 角度 划分 的 ,因而 更 注重 知识 的 实践 
性 和 价值 性 。 为 了 更 深刻 地 理解 知识 的 含义 并 对 其 进行 有 效 管理 ,在 OECD 分 类 的 基础 
上 ,进一步 将 知识 划分 为 显 性 知识 和 隐 性 知识 两 大 类 。 

所 谓 显 性 知识 ,是 指 可 以 通过 正常 的 语言 方式 传播 的 知识 ,典型 的 显 性 知识 主要 是 指 以 
专利 .科学 发 明和 特殊 技术 等 形式 存在 的 知识 ,存储 在 书本 、 计 算 机 数据 库 .CD ROM m, 
显 性 知识 是 可 以 表达 的 有 物质 载体 的 和 可 确 知 的 。 在 OECD 划分 的 四 类 知识 中 ,关于 事 
实 和 原理 的 知识 基本 属于 显 性 知识 ; 所 谓 隐 性 知识 或 称 为 隐 含 经 验 类 知识 (tacit 
knowledge) ,往往 是 个 人 或 组 织 经 过 长 期 积累 而 拥有 的 知识 ,通常 不 易 用 语言 表达 ,也 不 可 
能 传播 给 别人 或 传播 起 来 非常 困难 。 例 如 技术 高 超 的 厨师 或 艺术 家 可 能 达到 世界 水 平 , 却 
很 难 将 自己 的 技术 或 技巧 表达 出 来 从 而 将 其 传播 或 共享 。 隐 性 知识 对 应 的 是 OECD 分 类 
中 技能 知识 和 人 力 知 识 ,其 特点 是 不 易 被 认识 到 、 不 易 衡 量 其 价值 .不 易 被 其 他 人 所 理解 和 
掌握 。 

显 性 知识 和 隐 性 知识 的 划分 突破 了 过 去 人 们 对 于 知识 的 认识 ,将 还 未 经 系统 化 处 理 的 
经 验 类 知识 予以 承认 。 如 果 把 显 性 知识 比喻 为 “冰山 的 尖端 ”, 则 隐 性 知识 就 是 隐藏 在 水 面 
下 的 大 部 分 ,它们 虽然 比 显 性 知识 难 发 觉 , 却 是 社会 财富 的 最 主要 源泉 。 知 识 管理 中 的 一 个 
重要 观点 就 是 隐 性 知识 比 显 性 知识 更 完善 更 能 创造 价值 , 隐 性 知识 的 挖掘 和 利用 能 力 ,将 
成 为 个 人 和 组 织 成 功 的 关键 。 


11.3. 知识 表示 


知识 表示 的 最 基本 作用 是 能 够 清晰 明确 地 表示 面向 计算 机 的 知识 。 此 外 ,知识 表示 还 
具有 以 下 作用 : 

1. 突显 问题 本 质 

计算 机 在 表示 事物 时 ,为 保持 知识 表示 的 紧凑 和 一 致 性 ,要 求 能 抓 住 事物 的 本 质 和 相互 
之 间 的 重要 区 别 ,避免 表示 不 必要 或 不 可 能 知道 的 细节 。 所 以 合理 的 知识 表示 形式 能 突显 
问题 的 本 质 。 

2. 支持 知识 获取 

人 工 智 能 只 有 不 断 进化 ,才能 突显 其 旺盛 的 生命 力 。 所 以 知识 表示 必须 能 支持 其 渐 增 
地 从 外 界 获取 知识 ,使 计算 机 内 部 模型 越 来 越 精确 地 反映 外 部 世界 ,更 好 地 完成 问题 求解 
任务 。 

3. 支持 对 知识 库 的 高 效 搜索 

如 果 计 算 机 不 但 能 够 感觉 到 周围 环境 存在 的 问题 ,还 能 准确 知道 利用 已 拥有 的 知识 进 
行 解决 ,这 对 其 智能 行为 的 产生 将 具有 重要 作用 。 所 以 知识 表示 应 能 支持 对 知识 库 的 高 效 


搜索 ,以 便 发 现 被 感知 的 事物 之 间 的 关系 和 变化 ,找到 对 问题 状态 的 最 佳 描述 ,消除 重复 . 宛 
余 的 内 容 ,处 理 感知 信息 中 的 错误 。 

知识 表示 研究 的 主要 内 容 包括 

。 表示 观 的 研究 

。 表示 方法 的 研究 

针对 知识 表示 观 和 知识 表示 方法 ,下 面 将 分 别 介绍 。 


11.3.1 知识 表示 观 


在 讨论 具体 的 知识 表示 方法 之 前 , 搞 清楚 “什么 是 表示 ”这 一 基本 问题 是 十 分 必要 的 。 
根据 对 这 个 基本 问题 的 不 同 理解 和 所 采用 的 方法 论 , 人 工 智能 学 界 形成 了 不 同 的 学 派 。 

1. 基于 认识 论 的 表示 

基于 认识 论 的 表示 认为 对 智能 行为 的 刻画 是 与 常识 知识 形式 化 紧密 相关 ,因此 对 常识 
形式 化 的 研究 是 AI 的 核心 任务 。 常 识 推 理 在 某 种 程度 上 就 是 问题 求解 中 的 灵活 性 ,而 灵 
活性 的 共同 特点 是 不 完全 性 、` 不 一致 性 ` 不 确定 性 及 进化 性 ,这 些 最 终 将 与 常识 推理 的 可 刻 
弃 性 相 联系 。 常 识 可 以 说 明 在 自然 世界 中 的 那些 “什么 均 可 以 发 生 , 什 么 也 可 以 不 发 生 ” 的 
现象 。 非 单调 推理 是 认识 论 学 派 研 究 的 主流 ,而 对 “灵活 性 ”的 不 同 考虑 与 侧重 产生 了 对 常 
识 研究 的 不 同 理论 。 

基于 认识 论 的 表示 主要 特点 是 : 

CD 表示 是 在 特定 环境 下 对 世界 观察 的 结果 ,其 意义 在 于 说 明 表 示 是 自然 现象 的 一 种 
替代 形式 。 对 人 工 智 能 研究 而 言 ,基于 认识 论 的 表示 更 加 强调 自然 现象 与 表示 之 间 的 因果 
关系 , 即 如 果 一 种 表示 不 能 刻画 某 种 智能 行为 , 则 失去 了 在 AI 范畴 内 研究 的 意义 ,而 不 管 
其 形式 是 如 何 优美 。 这 与 物理 学 家 的 思考 方法 十 分 类 似 , 但 与 数学 家 的 完全 不 同 。 

(2) 基于 认识 论 的 表示 认为 启发 式 方法 不 属于 表示 的 研究 内 容 ,其 理由 是 对 自然 现象 
的 表示 是 对 这 种 现象 的 机 制 更 深刻 的 刻画 ,至 于 怎样 有 效 地 得 到 行为 描述 与 最 后 的 合法 结 
论 不 是 认识 世界 的 问题 ,而 仅仅 是 怎样 做 得 更 好 的 问题 。 由 于 表示 是 对 自然 世界 的 刻画 , 因 
此 从 事实 出 发 而 推出 结论 的 过 程 是 合法 的 。 另 外 ,这 种 表示 对 在 计算 机 中 有 效 地 存储 的 考 
虑 并 不 是 针对 某 些 特定 的 已 有 表示 方法 ,而 是 指 由 于 常识 知识 的 特点 在 于 其 存在 着 例外 , 因 
此 需要 有 理论 的 概括 才 可 有 效 地 在 计算 机 中 存储 它们 。 

综 上 所 述 , 基 于 认识 论 的 表示 认为 对 常识 知识 的 形式 化 是 重要 的 任务 ,其 含意 不 是 指 在 
AI 中 经 常 使 用 的 穷 举 式 的 方法 ,而 是 寻找 一 种 简洁 地 表示 智能 行为 的 理论 。 因 此 ,这 种 表 
示 的 要 点 就 可 根据 P. Hayes 的 解释 说 明 为 “表示 的 唯一 作用 就 是 携带 知识 ”, 这 意味 着 表示 
可 以 独立 于 知识 , 当 这 个 携带 者 中 的 变 元 被 自然 世界 中 的 事实 所 代替 时 ,知识 将 表现 在 其 行 
为 之 中 。 

2. 基于 本 体 论 的 表示 

基于 本 体 论 的 表示 认为 表示 是 对 自然 世界 的 描述 ,绝对 的 逼真 是 不 可 能 的 ,自然 世界 唯 
一 绝对 精确 的 表示 是 其 自身 ,其 他 表示 都 不 是 绝对 逼真 ,任何 表示 不 可 避免 地 包含 着 简化 或 
人 为 的 规定 。 基 于 这 样 的 考虑 ,产生 了 一 系列 的 问题 ,这 些 问题 的 解决 就 是 基于 本 体 论 的 表 
示 , 即 : 
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(1) 由 于 任何 一 种 表示 都 是 对 自然 世界 事物 的 近似 。 因 此 ,表示 必然 需要 对 世界 的 某 
个 部 分 给 予 特别 的 注意 (聚焦 ) ,而 忽略 世界 的 另外 部 分 (衰减 ) ,而 聚焦 什么 和 衰减 什么 的 
“聚焦 一 衰减 ”效果 (心理 学 称 这 种 现象 为 注意 力 集中 ) 就 是 看 待 外 部 世界 的 规定 ,这 形成 了 
本 体 论 约定 的 集合 。 本 体 论 约定 必然 性 的 理由 是 表示 模型 的 不 完善 ,而 其 有 效 性 的 理由 则 
是 因为 注意 力 集中 于 世界 的 一 小 部 分 而 达到 对 问题 的 有 效 求解 。 

(2) 基于 本 体 论 的 表示 强调 对 自然 世界 可 以 采用 不 同 的 方法 记述 ,但 注重 的 不 是 语言 
形式 ,而 是 内 容 , 这 与 基于 认识 论 的 表示 “表示 的 唯一 功能 是 携带 知识 ”的 观点 针锋相对 。 但 
基于 本 体 论 的 表示 又 与 基于 知识 工程 的 表示 不 同 , 它 所 注重 的 内容" 不 是 某 些 特定 领域 的 
特殊 的 专家 知识 ,而 是 自然 世界 中 的 那些 具有 普遍 意义 的 一 般 知 识 (general knowledge). 
寻找 并 建立 这 样 一 个 具有 常识 知识 并 可 为 大 多 数 领 域 使 用 的 一 般 性 知识 库 , 就 是 基于 本 体 
论 的 表示 中 关于 “内 容 ” 的 含意 。 

(3) 基于 本 体 论 的 表示 认为 ,表示 只 是 表述 智能 行为 的 部 分 理论 ,其 暗示 不 考虑 推理 的 
纯粹 表示 是 不 存在 的 。 这 一 观点 与 基于 认识 论 的 表示 没有 什么 本 质 区 别 , 区 别 在 于 表示 的 
研究 是 否认 为 保 真 推理 是 其 唯一 需要 遵循 的 原则 。 基 于 本 体 论 的 表示 认为 表示 研究 应 与 
“启发 式 搜索 ”联系 起 来 考虑 。 启 发 式 搜索 是 表示 理论 的 重要 组 成 部 分 ,其 理由 是 既然 表示 
是 对 自然 世界 不 完善 的 描述 , 则 保 真 推理 就 会 将 这 种 不 完善 带 入 其 推出 的 结果 中 。 从 数学 
角度 而 言 , 这 个 推理 是 正确 的 ,但 它 可 能 与 自然 世界 的 现象 不 符 。 另 一 个 理由 则 可 能 更 重 
要 ,基于 本 体 论 的 表示 认为 合法 推理 可 以 给 出 问题 的 全 部 解答 ,但 推荐 推理 则 将 给 出 合理 的 
解答 。 在 此 ,合理 ?这 一 关键 词 有 两 种 含意 : 其 一 是 指 相对 小 的 解 集合 ,其 二 是 指 在 推理 过 
程 中 大 大 减少 的 搜索 空间 。 

(4) 基于 本 体 论 的 表示 认为 计算 效率 无 疑 是 表示 的 核心 问题 之 一 ,这 是 这 种 表示 考虑 
“启发 式 搜索 是 表示 研究 不 可 分 割 一 部 分 "的 必然 结论 。 基 于 本 体 论 的 表示 强调 启发 式 方法 
对 表示 的 作用 ,这 意味 着 有 效 的 知识 组 织 及 领域 有 关 的 启发 式 知识 是 其 提高 计算 效率 的 手 
段 , 但 这 一 结论 可 能 有 失 全 面 。 

(5) 基于 本 体 论 的 表示 认为 使 用 哪 种 语言 作为 表示 形式 并 不 是 最 重要 的 , 它 强 调 为 了 
刻画 自然 世界 的 丰富 性 集成 多 种 表示 方法 是 必然 的 。 另 外 ,这 种 表示 特别 指出 表示 不 是 数 
据 结构 ,这 是 它 与 基于 知识 工程 的 表示 的 重要 区 别 之 一 。 

3. 基于 知识 工程 的 表示 

基于 知识 工程 的 表示 区 别 于 前 面 两 种 表示 ,主要 体现 在 两 个 方面 : 其 一 是 基于 知识 工 
程 的 表示 将 表示 理解 为 一 类 数据 结构 及 在 其 上 的 操作 ; 其 二 是 对 知识 的 内 容 更 强调 与 领域 
相关 的 ,那些 只 适合 于 这 个 领域 的 ,来 自 领域 专家 经 验 的 知识 。 由 此 说 明 这 种 表示 更 强调 其 
工程 实现 性 ,而 不 甚 关心 对 其 行为 的 科学 解释 。 

综 上 所 述 , 基 于 认识 论 的 表示 假设 表示 是 对 自然 世界 的 描述 ,表示 自身 不 显示 任何 智能 
行为 ,其 唯一 的 作用 是 携带 知识 ,表示 研究 与 启发 式 研究 无 关 。 基 于 本 体 论 的 表示 假设 表示 
是 对 自然 世界 的 一 种 近似 , 它 规定 了 看 待 自 然 世 界 的 方式 , 即 一 个 约定 的 集合 ,表示 只 是 描 
述 了 在 这 个 世界 中 ,观察 者 当前 所 关心 的 那 部 分 ,其 他 部 分 则 被 忽略 。 基 于 知识 工程 的 表示 
认为 ,表示 是 对 自然 世界 描述 的 计算 机 模型 ,应 该 满足 计算 机 这 一 实体 的 具体 限制 。 因 此 ， 
表示 可 以 理解 为 一 类 数据 结构 及 在 其 上 的 一 组 操作 。 

不 同 的 表示 对 智能 模拟 研究 的 侧重 不 同 。 例 如 基于 知识 工程 的 表示 强调 自然 世界 在 计 


算 机 内 部 某 类 数据 结构 的 映像 形式 及 对 存储 内 容 所 采用 的 处 理 方法 。 因 此 ,研究 知识 的 存 
储 结构 及 其 有 效 地 使 用 (推理 和 搜索 ) 成 为 这 种 表示 研究 的 主要 任务 ,这 种 表示 侧重 于 “ 计 
算 机 可 接受 "这 个 条 件 。 对 基于 认识 论 的 表示 而 言 , 表 示 是 一 种 携带 知识 的 理论 ,问题 求 
解 的 有 效 性 不 在 其 考虑 之 列 ,强调 对 自然 现象 (如 常识 知识 ) 抽 象 . 简 洁 的 刻画 。 基 于 本 
体 论 的 表示 则 认为 任何 表示 均 是 不 完全 的 知识 理论 ,而 对 其 使 用 的 有 效 性 (计算 困难 程 
度 ) 则 是 先决 条 件 。 因 此 ,基于 本 体 论 的 表示 强调 一 种 聚焦 的 功能 ,“ 启 发 式 ” 成 为 研究 的 
一 部 分 。 

这 些 表示 是 从 不 同 角度 及 不 同 描述 层次 解释 表示 的 内 涵 而 产生 的 不 同 结论 。 但 是 , 基 
于 本 体 论 的 表示 不 能 因为 其 强调 表示 的 不 完善 及 可 计算 而 否定 其 知识 携带 作用 , 它 与 基于 
认识 论 的 表示 的 区 别 仅仅 在 于 这 种 作用 是 否 是 唯一 的 。 另 外 ,由 于 基于 本 体 论 的 表示 承认 
表示 与 “启发 式 ” 研 究 之 间 的 关系 ,因此 与 基于 知识 工程 的 表示 紧密 相关 。 

一 般 地 ,基于 认识 论 的 表示 强调 知识 的 某 种 存在 性 ,基于 本 体 论 的 表示 则 更 多 考虑 知识 
的 构造 性 ,而 基于 知识 工程 的 表示 则 以 知识 系统 的 可 实现 性 作为 重点 。 显 然 ,对 任何 一 门 学 
科 , 存 在 性 构造 性 及 可 实现 性 都 很 重要 ,简单 地 否定 某 种 表示 是 不 合适 甚至 是 错误 的 。 


11.3.2 知识 表示 方法 
AI 中 经 常 使 用 的 知识 表示 方法 几乎 都 是 来 源 于 研究 者 对 智能 行为 在 微观 与 宏观 不 


同 层次 的 观察 和 分 析 抽 象 出 来 的 模型 。 根 据 表 示 方 法 的 原理 可 以 分 为 三 类 ,如 图 11. 1 
所 示 o 


知识 表示 方法 


替代 表示 分 布 表 示 


| 
直接 表示 局 部 表示 


| 
陈述 性 表示 过 程 性 表示 


m~~ 
BERT 产生 式 表示 语义 网 络 表示 


pi 
脚本 表示 
11.1 知识 表示 方法 分 类 


CD 局 部 表示 包括 逻辑 .产生 式 系统 .语义 网 络 、 框 架 , 脚 本 、 过 程 等 。 

(2) 分 布 表示 包括 基因 、 联 接 机 制 。 

(3) 直接 表示 包括 各 种 图 形 、 图 像 声音 及 人 造 环境 等 。 

图 11.1 中 ,局 部 表示 是 AI 研究 最 充分 也 是 传统 AI 最 经 常 使 用 的 表示 方法 ,包括 他 
辑 、 产 生 式 系统 、 语 义 网 络 框架、 脚本 和 过 程 等 。 一 般 地 ,局 部 表示 又 分 为 陈述 性 表示 和 过 
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原理 及 应 用 


程 性 表示 两 种 。 陈 述 性 表示 是 对 事物 状态 、 属 性 和 相互 关系 的 描述 ; 过 程 性 表示 则 是 对 事 
物 的 行为 和 操作 问题 的 求解 方法 和 步骤 的 具体 描述 。 分 布 表 示 是 对 局 部 表示 在 智能 行为 
描述 上 不 够 充分 而 进行 的 补充 ,包括 基因 ,联接 机 制 。 直 接 表示 采用 与 自然 世界 一 致 的 表示 
方法 , 早 在 20 世纪 60 年 代 初 被 提出 ,并 引起 越 来 越 多 AI 研究 者 的 关注 。 目 前 ,这 类 表示 方 
法 称 为 直接 表示 或 拟 真 (direct or analogical) 表 示 ,如 地 图 .图形 图像. 音乐 及 人 造 环 境 等 。 
基于 这 类 表示 的 系统 是 以 对 实体 的 拟 真 描述 直接 或 间接 参与 推理 为 特点 。 如 果 考 虑 以 计算 
机 作为 载体 对 知识 编码 , 则 直接 表示 不 是 一 种 可 以 完全 独立 于 局 部 与 分 布 表 示 的 方法 ,主要 
原因 是 考虑 到 任何 表示 方法 必须 可 以 被 计算 机 接受 这 一 先决 条 件 , 因 此 直接 表示 的 方法 需 
要 借助 局 部 或 分 布 表示 的 形式 。 对 计算 机 而 言 , 相 对 于 局 部 和 分 布 表示 ,直接 表示 可 以 视 为 
外 部 表示 ,与 其 他 内 部 表示 相 比 , 它 强调 表示 与 被 表示 实体 之 间 具 有 结构 相似 性 。 由 于 这 种 
表示 方法 存在 的 固有 缺点 及 技术 条 件 的 限制 ,在 较 长 时 间 内 没有 得 到 长 足 的 发 展 。 主 要 原 
因 在 于 : 

(1) 计算 机 对 直接 表示 的 信息 难以 处 理 。 直 接 表示 的 信息 (如 图 形 ) 具 有 很 强 的 领域 相 
关 性 ,这 暗示 这 种 表示 方法 包含 太 多 元 余 信息 ,因此 注意 力 集中 成 为 必须 考虑 的 问题 。 另 
外 ,大 多 数 直 接 表 示 的 信息 的 语义 取决 于 其 使 用 背景 ,而 不 是 独立 的 。 这 样 难以 发 展 成 为 一 
种 一 般 性 的 描述 语言 。 

(2) 直接 表示 难以 表示 定量 信息 ,换言之 直接 表示 描述 自然 世界 的 信息 范围 相对 受 限 ， 
这 使 很 多 研究 者 试图 设计 基于 直接 表示 的 语言 均 以 失败 告终 。 

下 面 ,将 简要 介绍 几 种 局 部 表示 方法 。 

1. 产生 式 系统 

自然 界 的 各 种 知识 单元 之 间 存 在 着 大 量 的 因果 关系 ,这 些 因果 关系 或 者 前 提 与 结论 的 
关系 ,采用 产生 式 ( 或 称 规则 ) 表 示 是 非常 方便 的 。 实 际 上 ,谓词 公式 的 蕴含 关系 就 是 产生 式 
的 特例 ,如 “天 下 雨 ,地 上 湿 了 ”。 

一 个 产生 式 系 统 通 常 由 三 部 分 组 成 , 即 : 

COD 一 组 规则 , 即 产 生 式 本 身 。 每 个 规则 分 为 左 部 (LHS) 和 右 部 (RHS)。 一 般 而 言 , 左 
部 表示 情况 , 即 什么 条 件 发 生 时 此 产生 式 被 调用 ; 右 部 表示 动作 , 即 此 产生 式 被 调用 后 所 做 
的 动作 。 在 核实 左 部 情况 时 ,通常 采用 匹配 的 方法 , 即 查看 当前 数据 基 中 是 否 存在 规则 左 部 
所 示 的 情况 。 如 果 存 在 则 匹配 成 功 , 否 则 匹配 不 成 功 。 匹 配 成 功 时 执行 右 部 规定 的 动作 , 动 
作 一 般 是 指 对 数据 基 中 的 数据 进行 某 种 处 理 , 例 如 添加 (增加 新 数据 ) .置换 (替换 旧 数 据 ) 和 
圳 除 ( 删 除 旧 数据 ) 等 。 

产生 式 是 专家 系统 中 使 用 最 广泛 的 一 种 知识 表示 方法 ,能 够 模拟 人 类 求解 问题 的 思维 
方式 ,便于 表达 领域 专家 的 启发 式 知识 或 经 验 知识 。 

产生 式 规则 (production rule) 通 常用 于 描述 事物 之 间 的 一 种 因果 关系 ,其 基本 形式 是 : 

If— P>>Then<Q>> 

其 中 ,已 是 产生 式 的 前 提 , 用 于 判断 该 产生 式 是 否 可 用 的 条 件 , 也 称 为 前 件 ; Q 是 产生 
式 的 结论 或 操作 ,用 于 当前 提 已 满足 时 ,应 该 得 出 的 结论 或 执行 的 操作 ,也 称 为 后 件 。 
例如 : 


If 某 动物 吃 肉 Then 它 是 食肉 动物 (表示 一 种 结论 ) 
1f JP iiid EBR Then 立即 关闭 风门 ,通知 管理 员 ( 表 示 一 种 操作 ) 


(2) 数据 基 (data base) 。 每 个 产生 式 系统 都 有 一 个 数据 基 , 其 中 存放 的 数据 既是 构成 
产生 式 的 基本 元 素 , 又 是 产生 式 作用 的 对 象 。 数 据 基 常 译作 数据 库 , 但 这 里 所 指 的 数据 基 和 
数据 库 管 理 系统 中 的 数据 库 是 两 个 不 同 的 概念 。 这 里 数据 是 广义 的 ,可 以 是 常量 .变量 、 多 
元 组 ,谓词 表 结 构 和 图 像 等 ,往往 指 一 个 事实 或 断言 ,可 以 把 它 看 成 一 个 知识 元 。 

(3) 解释 程序 。 负 责 整 个 产生 式 系统 的 运行 ,包括 规则 左 部 和 数据 基 的 匹配 ,从 匹配 成 
功 的 规则 (可 能 不 止 一 个 ) 中 选 出 一 个 执行 ,解释 执行 规则 右 部 的 动作 ,并 择机 结束 产生 式 系 
统 的 运行 等 。 

2. 语义 网 络 

语义 网 络 (semantic network) 是 由 J. R. Quillian 在 1968 年 研究 人 类 联想 记忆 时 提出 的 
一 种 心理 学 模型 ,他 曾 提 出 记忆 是 由 概念 间 的 联系 实现 的 ,把 语义 网 络 作 为 人 类 联想 记忆 的 
一 个 显 式 心理 学 模型 。 随 后 ,J. R. Quillian 又 把 它 用 作 一 种 知识 表示 方法 。1972 年 ,西蒙 
在 其 自然 语言 理解 系统 中 也 采用 了 语义 网 络 表示 法 。1975 年 G. G. Hendrix 对 全 称 量词 的 
表示 提出 了 语义 网 络 分 区 技术 。 

语义 网 络 是 对 对 象 及 其 属性 分 类 知识 编码 的 图 形 结构 。 语 义 网 络 是 一 种 由 结 点 及 结 点 
间 带 标记 的 连接 弧 组 成 的 有 向 图 ,其 中 表示 事物 、 对 象 \ 状 态 和 概念 等 的 结 点 有 两 类 ,三 类 连 
接 弧 表示 结 点 间 的 关系 ,可 用 标记 说 明 具体 的 语义 关系 。 

两 类 结 点 分 别 是 : 

(1) 由 关系 常量 标识 的 结 点 ,对 应 分 类 类 别 或 属性 。 

(2) 由 对 象 常量 标识 的 结 点 ,对 应 领域 对 象 。 

三 类 连接 结 点 的 弧 分 别 是 : 

CD 子 集 弧 ( 又 称 is 一 is a 连接 ) 

(2) 集合 从 属 关系 弧 ( 又 称 实例 连接 ) 

(3) 函数 弧 

语义 网 络 是 一 种 表达 能 力 强 而 且 灵 活 的 知识 表示 方法 ,丰富 的 语义 关系 不 但 使 语义 网 
络 能 够 方便 地 表示 事物 的 属性 和 状态 ,还 能 恰当 地 表示 事物 之 间 的 关系 。 目 前 ,语义 网 络 已 
被 广泛 应 用 于 专家 系统 .自然 语言 理解 等 人 工 智 能 领域 。 

一 个 语义 网 络 实例 如 图 11. 2 所 示 o 


水 果 ”| | 有 营养 的 


11.2 语义 网 络 的 实例 
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3. 概念 图 

概念 结构 (concept structure) 是 由 美国 的 John F. Sowa 提出 的 基于 语言 学 ,心理 学 和 哲 
学 为 一 体 的 一 种 最 新 的 知识 表示 方法 ,不 但 能 够 表示 传统 知识 表示 方法 所 表示 的 知识 ,而 且 
具有 表达 能 力 强 .直观 .可靠 性 好 、 易 于 实现 、 接 近 自 然 语言 等 特点 。 自 提出 后 ,就 在 美国 得 
到 了 很 高 的 评价 。 

概念 图 的 形式 化 定义 为 CG— (Concept Relation, F) ,其 中 : 

* Concept= (ci cz ,…,cw} 是 概念 结 点 (concept node) 的 集合 。 

* Relation (ri ,rs，… om, } 是 关系 结 点 (relation node) 的 集合 。 

。 下 (ConceptXRelation)U(CRelationXConcept) 是 弧 的 集合 。 

概念 图 以 图 形 表示 是 一 种 有 向 连通 图 ,包括 概念 结 点 和 概念 关系 结 点 两 种 。 弧 的 方向 
代表 概念 结 点 和 概念 关系 结 点 之 间 的 联系 。 概 念 结 点 表示 问题 域 中 的 一 个 具体 或 抽象 的 实 
体 ,概念 关系 结 点 表示 概念 结 点 之 间 的 联系 。 

概念 图 中 ,概念 结 点 用 方 框 表示 ,概念 关系 结 点 用 圆圈 表示 ,有 向 弧 标 出 了 概念 关系 结 
点 所 邻接 的 概念 结 点 ,例如 A girl, Sue.is eating pie fast 对 应 的 概念 图 如 图 11. 3 所 示 。 


A girl: Sue (ur) eat manr fast 


11.3 概念 图 的 实例 


此 外 ,为 了 便于 终端 输出 ,还 可 用 方 括号 表示 概念 结 点 , 圆 括 号 表示 关系 结 点 。 概 念 图 
的 这 种 表示 形式 也 称 为 线性 形式 (linear form)。 上 面 的 例子 采用 线性 形式 可 表示 为 : 

[eat] - (agnt) - [girl: Sue] 

(object) - [pie] 

(manr) - [fast] 

一 个 概念 结 点 可 以 有 两 个 域 , 其 中 一 个 称 为 类 标号 域 (concept label) ,如 上 例 中 的 girl, 
类 标号 域 表 示 一 般 的 、 不 确定 的 概念 ; 另 一 个 为 所 指 域 (referent) ,如 上 例 中 的 Sue。 所 指 域 
表示 具体 的 概念 ,可 以 是 一 个 特定 的 值 或 值 的 集合 。 实 际 上 referent 是 concept type 的 具 
体 值 ,如 上 例 的 girl 泛 指 女孩 ,而 Sue 表示 一 个 特定 的 名 叫 Sue 的 女孩 。 由 此 可 以 看 出 引入 
所 指 域 后 ,概念 被 限定 为 一 个 确定 的 值 。 另 外 ,概念 之 间 具 有 类 层次 关系 (type hierarchy 
relation) ,如 person 是 animal 的 子 类 (subtype) ,animal 是 person 的 超 类 (supertype) 等 。 

例如 已 知 概念 结 点 的 类 标号 集 为 : 


(animal, wild- animal, pet, tiger, carnivore, feline, wild - feline, lion, jaguar] 


其 类 层次 关系 如 图 11.4 所 示 。 
4. 框架 
框架 通常 由 描述 事物 的 各 个 方面 的 槽 组 成 ,每 个 槽 可 以 有 若干 个 侧面 ,而 每 个 侧面 又 可 
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图 11.4 概念 结 点 的 类 层次 关系 


以 有 若干 个 值 。 框 架 的 一 般 结构 是 : 


< 框架 名 > 
«nr 1» < 侧面 11 > < 值 111 >… 
< 侧面 12» < 值 121 >… 


<A 2 > < 侧面 21» «f 211 >… 
«fli n» < 侧面 nl > < 值 n11>… 


NE m> < 值 nmi >… 
较 简单 的 情景 是 用 框架 表示 诸如 人 和 房子 等 事物 。 例 如 一 个 人 可 以 用 职业 、 身 高 和 体 
重 等 描述 ,因而 可 以 用 这 些 项 组 成 框架 的 槽 。 当 描述 一 个 具体 的 人 时 ,再 用 这 些 项 的 具体 值 
填 人 到 相应 的 槽 中 。 下 面 是 一 个 描述 John 的 框架 的 简单 实例 。 


JOHN Isa PERSON 
Profession PROGRAMMER 
Height 1.8m 
Weight 79kg 


框架 是 一 种 通用 的 知识 表示 方法 ,对 于 如 何 运用 框架 还 没有 一 种 统一 的 形式 ,常常 取决 
于 各 种 问题 的 不 同 需要 。 

框架 是 一 种 复杂 结构 的 语义 网 络 。 因 此 语义 网 络 推理 中 的 匹配 和 特性 继承 在 框架 中 也 
可 以 使 用 。 此 外 ,由 于 框架 用 于 描述 具有 固定 格式 的 事物 、 动 作 和 事件 ,因此 可 以 在 新 情况 
下 ,推论 出 未 被 观察 到 的 事实 。 

框架 包含 所 描述 的 情况 或 物体 的 多 方面 信息 ,包含 物体 必须 具有 的 属性 。 在 填充 框架 
的 各 个 槽 时 ,要 用 到 这 些 属性 。 框 架 描 述 它们 所 代表 的 概念 的 典型 实例 。 

图 11.5 给 出 一 个 定位 零件 源 框架 。 

用 一 个 框架 具体 体现 一 个 特定 情况 的 过 程 ,经 常 不 是 很 顺利 。 当 这 一 过 程 遇 到 障碍 时 ， 
可 以 不 放弃 原来 的 努力 去 从 头 开始 ,有 很 多 办 法 可 供 参 考 。 
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定位 零件 
种 类 : ( 《定位 板 》，《 导 向 零件 》，《 挡 料 零件 》) 
作用 ，( 确 定 毛坯 在 模具 中 的 准确 位 置 ) 
固定 : (中 模 ) 
送料 方式 : (手工 ) 
| | | 
定位 板 挡 料 零件 导向 零件 
类 属 : 《定位 零件 》 Aj. 《定位 零件 》 PUE PA | 
作用 : 范围 : 单个 毛坯) | | 作用 : 范围 : (条 料 ， 带 料 ) 作用 : 范围 : (条 料 ， 带 料 ) 
形状 : 《毛坯 形状 》 n. 条 料 uUo 缺 省 : 条 料 
定位 ，( 以 毛坯 的 外 形 或 “| | 定位 : ( 送 进 方向 ) " PE GEID MR 
内 孔 ) 种 类 : (固定 挡 料 销 》，《 活 动 挡 料 销 ) b cs 
梧 定 挡 料 销 导 料 板 
A. 《 挡 料 零 件 》 XR: 《导向 零件 》 
种 类 :(《( 圆 头 挡 料 销 》， 钧 形 挡 料 销 )) | | 形状 : (GB2865 5-81) 
默认 ，《〈 圆 头 挡 料 销 》 规格 : (长 度 X 宽 度 X 厚 度 ， 材 料 ) 
选用 依据 : (条 料 厚度 ) 选用 依据 : (条 料 厚度 ) 
圆 头 挡 料 销 
类 属 ， 《固定 挡 料 销 》 
形状 : (GB2866 11-81) 
规格 : ( 头 部 直径 X 杆 部 直径 X 高 度 ) 


11.5 定位 零件 源 框架 


(1) 选择 和 当前 情况 相对 应 的 当前 框架 片断 ,并 把 这 一 框架 片断 和 候补 框架 进行 匹配 ， 
选择 最 佳 匹配 。 

(2) 尽管 当前 框架 和 需求 描述 的 情况 之 间 存 在 不 相 匹配 的 地 方 ,但 仍然 可 以 继续 应 用 
这 一 框架 。 

(3) 查询 框架 之 间 专 门 保存 的 链 ,以 提出 应 朝 哪 个 方向 进行 试探 的 建议 。 

(4) 沿 着 框架 系统 排列 的 层次 结构 向 上 移动 (如 从 狗 框 架 一 哺乳 动物 框架 一 动物 杠 
架 ) ,直到 找到 一 个 足够 通用 ,并且 不 与 已 有 事实 矛盾 的 框架 。 


11.4 知识 管理 
11.4.1 概述 

当 智 能 的 人 类 与 知识 共同 出 现在 这 个 世界 时 ,一 种 对 于 知识 的 操作 就 此 产生 , 即 知识 的 
管理 与 共享 。 知 识 管理 与 共享 是 人 类 社会 进步 和 文明 继承 发 展 的 必要 条 件 。 通 过 知识 获 


得 交流 和 共享 ,可 使 人 类 在 知识 获取 的 过 程 中 ,避免 重复 工作 和 相同 的 错误 。 即 使 在 现代 
知识 型 组 织 中 ,关于 如 何 可 以 达到 期 望 结 果 和 避免 犯错 误 的 最 重要 的 思想 和 理论 主要 是 储 


存在 人 们 的 大 脑 中 ,而 不 是 在 计算 机 或 书籍 中 。 

伴随 着 知识 经 济 的 萌芽 ,知识 管理 备 受 关注 。 但 是 ,就 像 人 们 对 知识 有 不 同 的 理解 一 
样 , 以 知识 和 人 为 管理 对 象 的 知识 管理 ,目前 也 没有 一 个 广泛 认同 的 定义 。 

按照 美国 戴尔 集团 创始 人 之 一 卡尔 。 弗 拉 保罗 的 说 法 “知识 管理 就 是 运用 集体 智慧 提 
高 应 变 和 创新 能 力 ”, 是 为 企业 实现 显 性 知识 和 隐 性 知识 共享 提供 的 新 途径 。 

美国 “知识 的 进化 ”作者 Verna Allee 对 知识 管理 的 定义 是 “帮助 人 们 对 拥有 的 知识 进 
行 反思 ,帮助 发 展 支持 人 们 进行 知识 交流 的 技术 和 企业 内 部 结构 ,并 帮助 人 们 获得 知识 来 
源 , 促 使 他 们 之 间 进行 知识 的 交流 。” 

Daniel E * O'Leary 认为 “知识 管理 是 将 组 织 可 得 到 的 各 种 来 源 的 信息 转化 为 知识 ,并 
将 知识 与 人 联系 起 来 的 过 程 。 知 识 管理 是 对 知识 进行 正式 的 管理 ,以 便于 知识 的 产生 ,获取 
和 重新 利用 ”。 这 种 解释 着 重 阐明 信息 .知识 和 人 在 知识 管理 过 程 中 的 不 同 角色 。 

Wiig 指出 知识 管理 主要 涉及 四 个 方面 : 自 上 而 下 检测 和 推动 与 知识 有 关 的 活动 ,创造 
和 维护 知识 基础 设施 ,更 新 组 织 和 转换 知识 资产 ,使 用 知识 以 提高 其 价值 。 

知识 管理 的 目标 主要 包括 六 个 方面 , 即 : 

。 知识 的 发 布 ,以 使 一 个 组 织 内 的 所 有 成 员 都 能 应 用 知识 

。 确保 知识 在 需要 时 是 可 得 的 

。 推进 新 知识 的 有 效 开发 

。 支持 从 外 部 获取 知识 

。 确保 知识 、 新 知识 在 组 织 的 扩散 

。 确保 组 织 内 部 的 人 知道 所 需 的 知识 在 何 处 

尽管 上 述 定义 对 知识 管理 的 理解 不 尽 相同 ,但 都 隐 含 了 知识 管理 的 三 个 基本 要 素 , 即 知 
识 生 产 过 程 管理 ,知识 传播 过 程 管理 和 知识 使 用 过 程 管 理 。 因 此 ,知识 管理 是 对 知识 的 生 
产 , 传 播 和 使 用 的 全 程 监控 。 它 以 信息 技术 为 基础 ,为 知识 的 生产 ,传播 和 使 用 提供 开放 的 
可 管理 的 协同 工作 机 制 。 


11.4.2 知识 管理 与 信息 管理 的 关系 


知识 与 信息 、 知 识 管理 与 信息 管理 是 紧密 相关 的 。 信 息 是 事物 运动 的 状态 及 其 变化 的 
方式 ,信息 有 时 与 主体 有 关 。 而 知识 是 客观 的 ,与 主体 无 关 。 知 识 是 信息 ,是 信息 的 提炼 和 
一 般 化 ,然而 信息 不 一 定 是 知识 。 

信息 管理 是 为 实现 组 织 目标 、 满 足 组 织 需求 而 对 信息 资源 进行 规划 、 开 发 .集成 和 利用 。 
在 知识 管理 与 信息 管理 的 关系 方面 ,信息 管理 是 知识 管理 的 基础 ,知识 管理 是 信息 管理 的 拓 
展 和 延伸 。 信 息 管理 和 知识 管理 之 间 的 区 别 体现 在 以 下 几 个 方面 。 

首先 ,知识 管理 拓展 了 信息 管理 的 管理 对 象 。 知 识 管理 的 管理 对 象 包括 知识 以 及 传统 
意义 上 知识 的 创造 者 一 一 人 ,而 信息 管理 仅仅 局 限于 用 语言 文字、 图 形 、 图 像 和 声音 等 各 种 
载体 表示 的 信息 。 因 为 知识 存在 于 人 的 头脑 ,所 以 只 有 人 能 够 充当 知识 创造 的 主体 ,尽管 计 
算 机 具有 强大 的 信息 处 理 能 力 , 它 只 能 是 知识 创造 的 辅助 工具 。 因 此 ,知识 管理 把 人 纳入 了 
其 管理 的 范畴 。 

其 次 ,知识 管理 提升 了 信息 管理 的 地 位 和 作用 。 信 息 管理 服务 于 组 织 的 生产 、 经 营 和 管 
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理 。 信 息 管 理 系统 是 为 组 织 整体 的 管理 ,控制 和 决策 等 服务 , 它 的 成 功 运行 可 以 保证 组 织 运 
作 的 高 效率 、 及 时 性 和 适应 性 。 在 知识 型 组 织 中 ,知识 的 生产 ,传播 和 利用 是 组 织 的 主要 工 
作 之 一 ,是 组 织 核心 竞争 力 的 综合 体现 ,是 组 织 在 激烈 的 全 球 竞争 环境 中 制胜 的 法 宝 。 知 识 
管理 不 仅仅 是 人 与 人 之 间 的 知识 共享 ,还 包括 知识 的 创造 和 广泛 利用 。 创 造 知识 的 增值 价 
值 和 增值 服务 是 知识 管理 的 目的 ,也 是 其 备 受 青睐 的 原因 所 在 。 

再 次 ,知识 管理 强化 了 对 信息 管理 基础 设施 的 要 求 。 特 别 是 在 知识 传播 方面 ,要 求 做 到 
任何 时 间 ,任何 地 点 ,任何 人 都 可 以 获得 所 需要 的 知识 ,以 保证 知识 服务 的 实时 性 和 高 效 性 。 

最 后 ,知识 管理 是 与 信息 技术 、 人 工 智 能 ,管理 科学 、 人 文科 学 和 经 济 学 等 相关 的 交叉 学 
科 。 知 识 管理 研究 人 和 知识 在 知识 型 组 织 中 的 地 位 和 作用 ,研究 人 类 产生 知识 的 机 制 , 以 及 
信息 技术 如 何 被 用 来 提供 知识 生产 流通 和 使 用 的 支撑 环境 。 知 识 管理 还 研究 知识 如 何 有 
效 组 织 、 存 储 和 处 理 ,以 协助 乃至 代替 人 类 使 用 和 创造 知识 。 与 之 相 比 ,目前 的 信息 管理 在 
相当 程度 上 还 属于 计算 机 应 用 的 范畴 。 


11.4.3 核心 技术 


知识 管理 实现 两 个 基本 目标 : 一 是 已 有 知识 的 共享 与 重用 ; 二 是 创造 新 知识 。 这 是 跨 
越 某 一 时 段 的 实践 过 程 ,与 人 、 商 业 应 用 和 信息 技术 密 不 可 分 。 

知识 管理 包括 以 下 方面 : 

。 知识 聚集 : 包括 已 有 知识 的 集成 和 新 知识 的 获取 。 知 识 聚 集 又 称 为 知识 生产 。 

。 知识 组 织 和 存储 : 给 获得 的 知识 赋予 一 种 结构 并 合理 地 存储 ,以 便 有 效 管理 和 

使 用 。 
。 知识 演变 : 由 于 知识 聚集 过 程 中 发 生 的 偏差 ,以 及 知识 的 时 变性 ,需要 更 正 、 更 新 ， 
删除 旧 知 识 ,增加 新 知识 。 

。 知识 传播 : 使 需要 知识 的 任何 个 人 和 组 织 可 以 在 任何 时 间 、 任 何 地 点 获得 知识 。 

。 知识 使 用 : 在 知识 处 理 系统 之 间 和 相关 人 员 之 间 实 现 知识 共享 和 重用 。 

知识 管理 离 不 开 知 识 管理 系统 的 支撑 。 知 识 管理 系统 不 是 一 个 单纯 的 知识 发 布 系统 ， 
而 是 一 个 交互 式 的 开放 的 协同 工作 环境 。 知 识 管理 涉及 许多 核心 技术 ,主要 包括 : 

1. 信息 技术 

与 互联 网 电话 网 和 电视 网 等 相关 的 信息 技术 主要 用 于 解决 知识 的 快速 、 高 效 、 实 时 和 
准确 传输 ,是 知识 传播 的 基础 设施 。 知 识 传播 是 集 语 言 文字、 图像 和 声音 于 一 体 的 多 媒体 
数据 传输 ,信息 技术 的 快速 发 展 为 这 种 多 媒体 数据 的 快速 .实时 和 准确 传递 创造 了 条 件 。 

2. Web 技术 

目前 ,Web 技术 及 其 多 层 体系 结构 是 知识 管理 系统 普遍 采用 的 技术 。Web 技术 主要 涉 
及 两 类 标准 ,一 个 是 应 用 层 协 议 , 如 超 文 本 传送 协议 (HyperText Transfer Protocol. 
HTTP); 另 一 个 是 表示 层 句 法 ,包括 超 文本 标记 (HyperText Markup Language. HTML) 
和 扩展 标记 语言 (Extensible Markup Language,XML)。 此 外 ,动态 页 面 技术 可 以 使 得 用 户 
能 够 访问 存储 在 Web 中 的 实时 数据 。 

3. 知识 存储 技术 

知识 管理 需要 管理 的 知识 量 非常 大 ,这 些 知 识 需 要 有 效 地 组 织 和 存储 。 为 了 使 知识 能 


够 更 好 地 共享 和 重用 ,知识 和 知识 处 理 系统 应 该 分 离 ,知识 应 该 独立 于 知识 处 理 系 统 。 而 
且 , 知 识 通 常 是 比较 稳定 的 ,更 新 的 速度 较 慢 。 因 此 ,知识 库 的 知识 时 限 达 到 几 年 甚至 几 十 
年 。 并 且 , 知 识 库 面 对 的 主要 问题 不 是 查询 ,而 是 知识 的 分 析 和 处 理 。 所 以 ,与 事务 数据 库 
相 比 ,数据 仓库 更 适合 用 来 存储 知识 。 

另外 , 越 来 越 多 的 知识 以 HTML 和 XML 文件 的 形式 存储 在 Web 服务 器 中 ,这 给 知识 
存储 提供 了 新 途径 。 

4. 知识 获取 技术 

Feigenbaum 教授 曾 说 知识 获取 是 人 工 智能 中 最 重要 的 核心 问题 ,是 人 工 智 能 研究 的 关 
键 。 知 识 获 取 是 指 从 纷繁 的 信息 中 发 现 、 提 取 和 挖掘 知识 。 知 识 获取 可 以 分 为 人 工 获取 、 机 
器 辅助 的 人 工 获取 和 机 器 自动 获取 三 种 类 型 。 就 目前 的 技术 发 展 而 言 ,机 器 辅助 的 人 工 获 
取 既 能 保证 一 定 的 精度 ,又 能 确保 较 高 的 效率 ,而 知识 的 机 器 自动 获取 是 人 工 智 能 追求 的 
目标 。 

机 器 学 习 是 机 器 获取 知识 的 主要 方法 ,而 数据 挖掘 和 Web 挖掘 是 机 器 学 习 的 重要 研究 
方向 。 

数据 挖掘 又 称 为 数据 库 中 的 知识 发 现 (Knowledge Discovery in Database, KDD) ,是 从 
大 量 原 始 数据 中 挖掘 出 有 用 的 、 潜 在 的 信息 和 知识 (如 概念 、 规 律 、 规 则 .限制 .模式 、 约 
束 )。 数 据 挖掘 方法 众多 ,如 利用 ID3 和 C4. 5 等 信息 论 方法 ; 粗糙 集 和 覆盖 方法 等 集合 
论 方法 ; 神经 网 络 和 遗传 算法 等 仿生 方法 、 统 计 分 析 方法 等 。 数 据 挖掘 的 成 功 应 用 是 联 
机 分 析 处 理 , 利 用 原本 为 统计 而 搜集 的 数据 发 现 各 种 模式 ,分 析 变 化 趋势 进行 预测 ,以 及 
支持 决策 。 

Web 内 容 挖掘 .Web 结构 挖掘 和 Web 使 用 挖掘 是 Web 挖掘 的 三 个 组 成 部 分 。Web 内 
容 挖 掘 通常 指 Web 文本 挖掘 。 

5. 知识 表示 与 本 体 

知识 是 知识 管理 的 管理 对 象 之 一 ,是 人 类 认识 客观 世界 的 创造 性 成 果 , 供 人 类 学 习 使 
用 。 因 此 ,知识 构成 人 类 思维 活动 的 环境 ,是 人 类 创造 性 工作 的 基石 。 

机 器 要 加 工 和 处 理 知识 首先 必须 有 知识 ,因此 ,一 个 关键 问题 是 机 器 如 何 表示 知识 。 就 
好 像 人 类 创造 了 语言 文字 ,使 知识 可 以 保存 记录 ,这 些 知 识 既是 人 类 创造 的 成 果 , 又 是 后 人 
学 习 和 再 创造 的 基础 ,知识 表示 就 是 机 器 描述 知识 的 语言 和 文字 。 

构建 智能 系统 的 一 个 新 方法 是 聚集 可 重用 构件 。 今 天 建造 基于 知识 的 系统 通常 必须 从 
头 开始 建立 知识 库 , 其 实 可 以 通过 聚集 可 重用 构件 完成 。 系 统 开发 人 员 只 需 创 建 与 其 系统 
任务 相关 的 特定 知识 和 推理 机 。 新 的 系统 将 和 已 有 系统 进行 互 操作 ,利用 它们 执行 某 些 推 
理 。 通 过 这 种 方式 ,知识 ,问题 求解 技术 和 推理 服务 可 以 在 系统 之 间 共 享 。 这 种 方法 有 利于 
方便 地 建立 更 大 和 更 好 的 系统 。 然 而 时 至 今日 这 一 设想 还 远 未 实现 ,其 中 一 个 重要 原因 就 
是 知识 不 能 共享 与 重用 。 

Angus 等 指出 目前 的 知识 管理 不 能 重用 从 经 历 中 获得 的 知识 ,因为 它 不 以 一 种 形式 化 
的 方式 共享 。 知 识 的 共享 与 重用 是 知识 管理 的 实现 目标 之 一 。 可 见 ,知识 共享 与 重用 不 仅 
是 构建 智能 系统 的 普遍 性 问题 ,更 是 知识 管理 面临 的 严峻 挑战 。 知 识 共享 与 重用 需要 一 种 
形式 化 的 共享 的 知识 表示 规范 ,尤其 是 现在 的 知识 管理 系统 乃至 智能 系统 都 是 分 布 式 系统 ， 
集中 式 知识 表示 已 经 不 能 满足 应 用 的 需要 ,必须 研究 知识 的 分 布 式 表 示 方 法 。 知 识 表示 的 
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基础 是 本 体 (ontology) , 它 是 共享 知识 表示 的 关键 。 

为 什么 说 本 体 是 共享 知识 表示 的 关键 呢 ? 原因 在 于 : 首先 ,本 体 曾 述 了 知识 的 结构 。 
给 定 一 个 领域 ,构成 了 面向 这 一 领域 的 知识 表示 系统 的 核心 。 没 有 知识 之 下 的 本 体 或 领域 
概念 化 ,就 没有 一 个 表示 知识 的 词汇 。 其 次 ,本 体 使 知识 共享 成 为 可 能 。 因 为 有 了 本 体 , 就 
不 必 重 复 知 识 分 析 过 程 ,而 可 以 与 他 人 共享 这 一 知识 表示 语言 。 共 享 本 体形 成 了 领域 相关 
的 知识 表示 语言 的 基础 。 基 于 本 体 构造 的 知识 表示 语言 是 内 容 丰 富 ( 或 语义 丰富 ) 的 ,它们 
有 大 量 包 含 复杂 领域 内 容 的 项 ,这 类 共享 将 大 大 增加 知识 重用 的 潜力 。 

建立 可 以 共享 与 重用 的 领域 本 体 不 仅 是 知识 表示 的 需要 ,也 是 实现 知识 共享 和 重用 的 
关键 ,是 实施 知识 管理 的 一 项 基础 工作 。 
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第 12 章 语义 网 和 本 体 


12.1 语义 网 


1990 Æ Tim Berners Lee 发 明了 万 维 网 , 旨 在 通过 Internet 获取 各 种 信息 。 二 十 多 年 
过 去 了 ,万 维 网 发 展 飞 速 ,从 最 初 被 动 地 发 布 数据 ,到 交互 式 地 获取 所 需 数据 ,到 现在 实现 智 
能 检索 , 即 根据 用 户 需求 获取 信息 。 现 有 的 检索 工具 ,如 Google 已 经 把 检索 范围 和 搜索 速 
度 提 升 到 前 所 未 有 的 程度 。 然 而 ,人 们 发 现 万 维 网 还 是 无 法 满足 日 益 丰富 多 样 的 需求 ,其 局 
限 性 体现 在 : 

CD 信息 是 海量 的 ,但 缺乏 对 信息 的 描述 , 即 缺 乏 元 数据 (metadata); 

(2) 万 维 网 的 基石 一 一 HTML 提供 的 链接 缺乏 语义 ; 

(3) 基于 关键 词 检 索 的 万 维 网 搜索 引擎 的 检索 质量 和 效果 不 尽 人 意 。 

2000 年 12 月 在 XML2000 会 议 上 ,Tim Berners Lee 提出 了 下 一 代 Internet 的 概 
念 一 一 语义 网 (Semantic Web) ,为 人 们 描绘 了 未 来 语义 网 的 美好 前 景 。 语 义 网 是 当前 万 维 
网 的 扩展 和 延伸 。 语 义 网 的 信息 具有 充分 .完备 的 语义 定义 ,能 够 在 人 与 计算 机 之 间 建 立 语 
义 上 的 理解 与 合作 。 因 此 ,语义 网 是 具有 语义 的 万 维 网 ,是 能 够 理解 语义 的 万 维 网 。 


12.1.1 概述 


语义 网 研究 的 重点 是 如 何 把 信息 表示 为 计算 机 能 够 理解 和 处 理 的 形式 , 即 带 有 语义 。 
语义 网 中 语义 是 核心 , 即 能 够 在 人 与 计算 机 之 间 、 计 算 机 与 计算 机 之 间 以 无 偏差 的 方式 传递 
信息 。 语 义 网 的 基本 思想 是 对 互联 网 上 的 任意 资源 ,进行 结构 化 的 描述 并 引入 语义 ,使 得 计 
算 机 可 以 理解 互联 网 上 的 信息 。 当 然 , 计 算 机 不 可 能 真正 像 人 一 样 进行 思考 ,但 是 通过 制定 
标准 ,使 用 标准 描述 信息 的 含义 ,计算 机 就 可 以 根据 标准 进行 自动 分 析 和 推理 ,将 网 络 服务 
集成 在 一 起 ,使 自动 化 智能 服务 成 为 可 能 。 语 义 网 是 通过 在 互联 网 上 提供 定义 好 的 、 相 互 链 
接 的 数据 ,让 互联 网 数据 能 被 高 效 、 自 动 地 发 据 利 用 ,不 同 的 数据 能 更 好 地 集成 ,而 且 能 被 各 
种 不 同 的 应 用 程序 使 用 。 

语义 网 提供 一 个 基础 架构 ,通过 这 一 架构 在 Internet 上 不 再 只 能 处 理 Web 页 面 ,数据 
FE Web 服务 和 程序 ,传感器 ` 个 人 智能 设备 甚至 家 用 电器 设备 都 能 通过 网 页 来 传递 并 处 理 
数据 。 各 种 软件 代理 能 够 搜索 并 过 滤 这 些 数据 ,以 一 种 全 新 的 令 人 激动 的 方式 把 这 些 处 理 
好 的 数据 送 到 Web 使 用 者 面前 。 

回想 一 下 Internet 刚 普及 时 的 文档 处 理 系统 ,检索 并 引用 远程 系统 的 信息 还 是 专家 们 
的 游戏 。 虽 然 Internet 可 使 用 户 很 方便 地 登录 到 远程 系统 ,然而 这 些 系统 往往 使 用 不 同 的 
信息 提取 协议 ,例如 通过 Telnet 登录 到 一 个 远程 系统 后 ,在 获取 信息 之 前 用 户 需要 首先 了 
解 该 系统 的 信息 提取 协议 ,而 且 找 到 所 需 信息 后 ,要 先 复 制 到 用 户 的 剪贴 板 , 然 后 再 拷贝 (或 
者 重新 输入 ) 到 自己 的 文档 中 。 采 用 上 述 方式 对 于 处 理 那些 关联 性 强 、. 时 效 性 和 准确 度 要 求 
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极 高 的 文档 简直 就 是 一 场 亚 梦 。 

使 用 Web 技术 ,能 轻松 实现 信息 间 的 无 颖 链接, 尽管 很 多 系统 的 Web 服务 器 运行 在 不 
同 的 机 器 上 ,Web 应 用 程序 之 间 传 递 内容 仍 然 很 困难 。 目 前 ,在 充分 利用 Web 方面 仍然 受 
到 很 多 束缚 。 假 设 用 户 在 浏览 Internet 时 偶然 打开 了 一 个 会 议 通知 ,Web 上 有 召开 会 议 的 
时 间 和 地 点 ,并 且 还 有 很 多 超 链 接地 址 ,分 别 链接 到 本 次 会 议 召集 人 及 其 他 参与 人 员 的 个 人 
主页 。 当 用 户 报名 参加 本 次 会 议 , 开 始点 击 注册 按钮 ,此刻 期 待 着 电子 日 历 能 自动 记录 会 议 
的 日 期 和 时 间 ,并 能 链接 到 Web 上 的 详细 说 明 ,希望 数字 电话 能 下 载 会 场地 址 并 计算 出 在 
会 议 当 天 到 达 的 最 佳 列车 路 线 ; 还 希望 随身 携带 的 商务 通 能 自动 把 参 会 人 员 的 联系 方式 下 
载 并 临时 保存 起 来 ,直到 会 议 结束 。 用 户 是 多 么 希望 上 述 处 理 能 够 在 Web 上 一 次 点 击 即 全 
部 自动 完成 。 

遗憾 的 是 ,现在 还 无 法 做 到 。 事 实 上 用 户 不 得 不 非常 辛苦 地 把 会 议 详细 情况 逐条 复制 
并 粘贴 到 地 址 短 ,自己 查找 会 议 日 期 和 时 间 ,不 得 不 手工 从 各 个 会 议 参加 者 的 个 人 主页 中 寻 
找 并 拷贝 其 联系 信息 到 地 址 本 中 ,手动 调整 其 地 址 和 电话 号 码 格式 ,还 不 得 不 在 手机 上 录入 
会 议 的 位 置信 息 。 以 上 描述 的 情形 还 只 是 个 人 在 网 络 上 处 理 数据 所 遇 到 的 麻烦 ,处 理 企业 
业务 数据 时 的 困难 更 是 可 想 而 知 。 如 果 用 户 试图 连接 公司 内 部 运行 的 不 同 的 数据 处 理 系 
统 ,或 者 试图 帮助 客户 从 多 种 数据 库 中 整合 所 需 的 信息 ,可 能 会 遇 到 非常 尴 众 的 情形 。 在 库 
存 管 理 系 统 和 财务 系统 中 存在 很 多 重生 的 数据 ,在 整合 这 两 个 系统 的 数据 时 很 容易 发 生 主 
键 冲突 或 者 数据 关联 错误 ,可 能 不 得 不 使 用 程序 员 编 写 的 接口 程序 从 库存 管理 系统 中 筛选 
并 格式 化 数据 ,然后 导入 到 财务 管理 系统 。 同 时 还 发 现 企 业 的 客户 关系 管理 系统 也 应 该 和 
订单 管理 同步 进行 数据 整合 ,否则 将 会 严重 影响 公司 的 业务 和 生产 。 如 果 公 司 存在 很 多 不 
同 的 应 用 系统 ,将 需要 编写 大 量 代 码 提供 各 种 数据 接口 ,这 无 疑 会 带 来 高 昂 的 程序 维护 
开销 5 

使 用 XML 对 于 改善 上 述 情况 将 有 所 帮助 ,如 果 所 有 的 应 用 程序 都 采用 XML 格式 , 程 
序 员 只 要 学 会 处 理 XML 数据 ,就 不 必 和 各 种 离奇 古怪 的 数据 格式 打交道 。 这 意味 着 可 以 
利用 一 些 XML 工具 如 XSLT( 一 种 转换 语言 ,参见 http://www. w3. org/ TR/xsl Jh e JW 
用 程序 。 遗 憾 的 是 ,这 种 技术 还 无 助 于 彻底 改善 数据 接口 的 效率 。 因 为 每 一 对 应 用 程序 之 
间 , 其 至 同一 对 应 用 程序 的 每 一 种 接口 之 间 , 都 需要 定制 相应 的 XML 到 XML 桥 。 换 言 之 ， 
在 不 同 的 应 用 程序 之 间 提 取 XML 文件 时 ,不 是 简单 地 进行 合并 。 为 了 执行 针对 XML 文件 
的 查询 ,还 需 针对 其 配对 文件 补充 特定 的 限制 条 件 , 不 是 简单 地 把 两 个 查询 合并 到 一 起 。 这 
与 关系 数据 库 中 通用 的 数据 元 能 被 轻松 地 连接 到 一 起 的 处 理 方式 大 不 相同 。 

但 是 ,不 同 的 数据 库 由 不 同 的 schema( 数 据 视 图 ) 文 件 架 构 而 成 ,而 且 这 些 schema 的 表 
达 并 不 清晰 。 因 此 , 仅 靠 XML 标记 很 难 直 接 和 另 一 个 数据 库 中 的 域 关 联 。 解 决 办 法 之 一 
是 把 这 些 schema 变 得 更 明白 易 懂 ,并 映射 为 统一 的 术语 。XML-Schema 语言 (http:// 
www. w3. org/XML/schema) 允 许 很 多 公益 组 织 整 理 出 统一 的 schema 文件 。 一 个 公司 其 
至 是 一 个 特定 的 商业 部 门 , 通 过 开发 一 个 统一 的 XML 映射 集 (例如 一 个 特定 的 schema XC 
件 ) 就 能 采用 统一 结构 表达 信息 。 实 际 中 ,实施 起 来 并 不 容易 ,而 且 针 对 不 同 用 户 开发 一 个 
大 型 词汇 表 是 非常 棘手 的 事情 。 

不 同 结构 的 schema 文件 以 及 基于 不 同 商业 词汇 的 不 同 用 户 的 schema 文件 之 间 的 映 
射 ,都 不 是 XML-schema 所 能 解决 的 问题 。 实 际 中 经 常 需要 处 理 异 构 数 据 的 映射 问题 ,为 


此 需要 寻求 更 为 有 效 的 数据 表达 工具 。 例 如 关系 数据 库 中 的 关系 演算 ,数据 表达 能 力 远 远 
胜 过 许多 旧 的 数据 库 ( 文 件数 据 库 ), 因 此 它 成 了 过 去 处 理 数据 映射 的 标准 。 更 为 有 效 的 表 
达 方 法 ,如 实体 关系 或 者 对 象 模型 ,可 以 解决 复杂 的 数据 映射 或 异 构 数据 查询 。 总 之 ,采用 
更 有 表现 力 的 语言 能 提升 协同 工作 的 层次 。 既 然 以 前 的 数据 系统 采用 关系 模型 很 好 地 解决 
了 数据 兼容 问题 ,所 以 非 结 构 化 的 Web 数据 或 XML-schema 定义 ,也 可 以 通过 关系 模型 有 
效 解决 数据 模型 问题 。 

为 此 ,建立 了 一 个 名 为 资源 描述 框架 (Resource Description Framework. RDF, 参 见 
http://www. w3. org/RDF/) 的 语义 网 基础 组 件 。 如 果 两 份 来 自 不 同 数据 源 的 RDF 格式 
文件 需要 合并 ,只 需要 将 其 合并 成 一 个 大 文件 , 即 把 文件 中 的 关键 字 进 行 简单 的 连接 。 因 为 
RDF 文件 格式 的 关键 字 均 采用 相同 的 通用 资源 定位 符 (Uniform Resource Identifier， 
URD, 。 如 果 想 在 合并 后 的 RDF 文件 中 增加 限制 条 件 ,修改 原来 的 查询 方式 ,只 需要 直接 在 
新 的 RDF 文件 中 增加 限制 条 件 即 可 。XML 文件 是 由 元 件 和 属性 组 成 的 ,只 能 告诉 我 们 文 
件 里 面 记录 了 什么 内 容 , 而 RDF 则 由 一 段 段 数据 表达 式 组 成 ,每 个 表达 式 都 描述 了 一 个 特 
定 的 值 ,这 个 值 相对 于 一 个 数据 库 表 的 单元 。 原 有 的 关系 数据 库 运 算 都 可 兼容 ,如 连接 和 视 
图 等 ,并 可 以 使 用 常用 工具 加 以 执行 。 

这 样 可 以 顺利 地 解决 企业 级 应 用 系统 间 的 数据 集成 问题 。 只 要 把 每 个 应 用 程序 的 数据 
输出 转换 为 RDF 格式 文件 ,就 可 以 针对 RDF 执行 各 种 查询 ,轻松 地 编写 并 修改 查询 条 件 ， 
导出 所 需 数据 。 反 之 ,这 些 数据 也 能 轻松 地 导入 到 其 他 应 用 程序 中 。 而 且 , 这 种 问题 和 系统 
规模 只 是 线性 相关 ,就 好 像 添 加 新 的 Web 服务 器 不 会 影响 到 其 他 人 浏览 Web 一 样 ,新 的 
RDF 也 能 被 轻松 地 添加 到 Internet 上 ,而 不 会 影响 正常 使 用 。 大 量 需要 人 工 编写 的 数据 接 
口 奇迹 般 地 消失 了 ,就 像 文档 之 间 可 以 链接 一 样 ,数据 也 能 通过 Web 连接 在 一 起 。 

正如 如 果 没 有 RDF 就 难以 在 Internet. 上 整合 数据 库 一 样 , 应 用 程序 的 跨 互联 网 整合 也 
过 到 了 同样 问题 。 表 面 上 看 ,在 Internet 上 整合 应 用 程序 是 很 容易 的 ,经 常 是 轻 轻 点 击 一 下 
就 从 Internet 下 载 java 或 flash 程序 到 本 地 运行 。 但 这 对 于 电子 商务 应 用 程序 是 无 效 的 ， 
特别 是 在 B2B(Business to Business) 的 应 用 程序 之 间 。 

设想 某 个 企业 想 从 一 个 供应 商 那 购置 一 批零 部 件 ,需要 先 联系 大 型 船 运 公司 安排 船 运 ， 
然后 从 本 地 几 个 生产 商 中 精心 挑选 一 家 在 零件 运 到 时 具备 最 高 生产 能 力 的 厂家 生产 。 而 且 
是 希望 能 通过 Web 高 效 地 解决 这 一 问题 , 即 由 一 个 销售 员 下 订单 ,然后 启动 整个 供应 链 高 
效 协同 工作 。 这 看 上 去 和 前 面 提 及 的 数据 库 间 整 合 有 几 分 相似 ,然后 却 要 复杂 得 多 。 因 为 
牵涉 到 的 各 家 企业 采用 的 内 部 管理 软件 可 能 完全 不 同 ,而 不 仅仅 是 数据 库 的 不 一 致 。 更 糟 
的 是 ,这 些 应 用 程序 可 能 运行 在 企业 内 部 某 台 特 定 用 途 的 计算 机 上 或 隐身 在 内 部 防火 墙 和 
安全 防护 设备 后 面 。 首 要 解决 的 问题 就 是 如 何 能 通过 Internet 把 这 些 不 同 的 应 用 程序 集成 
起 来 ,也 就 是 要 为 这 些 程序 提供 通信 协议 可 以 理解 的 服务 描述 书 。 很 多 IT 企业 一 直 致 力 
于 解决 这 一 难题 ,从 而 形成 了 一 个 正 快速 增长 的 Web 服务 市 场 ,这 也 是 现代 电子 商务 中 增 
长 最 快 的 业务 。 例 如 著名 的 B2C(Business to Customer) 电 子 商务 组 织 Gartner 声称 “采用 
Web 服务 将 降低 成 本 ,将 IT 项 目的 效率 提高 30%。 佑 计 Web 服务 业已 形成 了 十 多 亿美 元 
的 市 场 规模 ,并 正在 迅速 成 长 。” 

所 以 , 正 加 速 开发 新 的 协议 和 语言 以 标准 化 描述 Web 服务 。 目 前 ,开发 了 一 种 基于 XML 
的 SOAP (Simple Object Access Protocol. 简单 对 象 访问 协议 ) (http://www. w3. org/ TR/ 
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SOAP) 协 议 为 Web 服务 之 间 提供 基于 互联 网 的 标准 调用 方法 。 此 外 ,正在 抓紧 研发 新 的 
Web 服务 描述 方法 和 Web 服务 架构 语言 ,这 也 是 W3C(World Wide Web Consortium) 当 

语义 网 将 在 广泛 分 发 Web 服务 时 提升 Web 服务 的 作用 。 许 多 Web 服务 供应 商 希 望 
通过 Internet 在 更 大 范围 内 为 不 同 用 户 共享 他 们 的 服务 ,提供 中 间 代 理 服 务 即 一 种 让 Web 
服务 能 在 用 户 间 自 动 匹配 的 能 力 是 非常 困难 的 。 而且, 这 种 周而复始 的 同类 词汇 间 的 映射 
会 导致 数据 库 的 暴露 。 使 用 现 有 的 实现 方法 ,Web 服务 描述 了 输入 、 输 出 、 端 口 和 其 他 调用 
概要 ,但 是 服务 的 行为 描述 却 以 一 个 content( 内 容 ) 字 段 保留 下 来 ,等 待 着 将 来 的 描述 。 因 
此 ,这 个 问题 就 和 前 面 的 数据 库 间 整合 非常 相似 ,不 同 企业 用 户 间 未 经 商定 的 不 同 映射 等 待 
着 被 解析 。 在 预先 分 派 好 的 团体 用 户 里 面 还 有 达成 一 致 的 可 能 ,但 那些 外 来 的 Web 服务 提 
供 商 ,由 于 使 用 了 不 同 的 内 容 schema, 要 统一 建立 映射 关系 就 非常 困难 ,这 要 求 我 们 在 整个 
供应 链 上 进行 大 量 的 预先 约定 ,而 这 将 大 大 限制 Web 服务 的 应 用 范围 。 

对 此 ,强大 的 语义 网 表达 语言 能 够 提供 帮助 。RDF 的 扩展 , 即 RDF schema 以 及 一 种 
新 研发 的 Web 本 体 语 言 OWLCWeb Ontology Language, 参 见 http://www. w3. org/2001/ 
sw/WebOnt/) ,能 够 建立 层级 和 词 库 ,帮助 解释 词汇 之 间 是 如 何 关联 的 。 例 如 ,已 在 互联 网 
上 建立 一 个 说 明 运 送 事件 的 schema, 邮 寄 是 一 种 运输 ,加 急 邮件 是 一 种 邮政 ,等 等 。 通 过 合 
并 不 同 的 词汇 表 描 述 的 服务 项 目 可 以 轻松 整合 出 新 的 服务 ,而 且 被 合并 的 文件 仍然 是 合法 
的 RDF。 

此 外 ,并 不 要 求 建立 服务 连接 的 描述 信息 采用 自然 语言 中 的 公用 词汇 。 不 管 外 部 服务 
是 来 自 不 同 的 用 户 还 是 开发 者 ,是 来 自 一 个 不 同 的 词典 还 是 随机 在 Internet. 上 发 现 的 某 个 
Web, 都 能 解释 映射 信息 。 因 此 ,只 需 将 名 为 lorry 的 合作 者 和 truck 之 间 建 立 对 应 关系 ,以 
后 当 合 并 图 表 时 ,可 以 发 现 lorry 与 truck 的 联系 。 甚 至 ,这 种 新 的 语言 还 允许 执行 更 为 复 
杂 的 映射 和 合并 ,例如 如 果 把 Nissan-Maxima 定义 为 豪华 型 汽车 ,产地 是 日 本 , 当 我 们 连接 
到 尼桑 经 销 商 的 服务 时 , 即 可 找到 上 面 定 义 的 属性 。 

当 某 些 相对 复杂 的 服务 不 能 很 快 从 Internet 获得 时 ,语义 网 将 能 提升 现 有 Web 服务 的 
能 力 。 例 如 一 家 专门 提供 小 糖果 礼品 盒 的 公司 需要 同时 订购 100 个 心 形 巧 克 力 和 200 个 棒 
棒 糖 ,并 需要 把 它们 运送 到 北京 进行 包装 ,找到 心 形 巧克力 供应 商 、 棒 棒 糖 生产 厂家 甚至 很 
多 的 运输 企业 并 不 难 , 但 这 不 是 仅 通过 一 个 服务 能 够 解决 的 。 显 然 我 们 希望 能 把 上 述 几 个 
服务 打包 在 一 起 而 不 必 去 辛苦 寻找 三 个 以 上 的 Web 服务 。 语 义 网 允许 把 所 需 的 服务 轻松 
地 整合 起 来 ,即便 事先 没有 采用 同样 的 词汇 进行 服务 定义 。 语 义 网 的 应 用 程序 还 能 分 析 实 
现 目标 的 方法 ,提供 高 效 、 合 理 的 Web 服务 集成 (例如 巧克力 需要 冷藏 ,能 自动 添加 该 项 服 
务 申请 以 保证 巧克力 不 会 在 运输 过 程 中 溶化 ) 。 尽 管 复杂 的 Web 服务 组 合 仍 是 一 个 尚 在 研 
究 的 课题 ,但 许多 基本 的 Web 服务 装配 ,如 各 种 不 同 服务 的 输入 和 输出 匹配 已 经 可 以 通过 
现 有 的 语义 网 工具 成 熟 应 用 了 。 

或 许 , 曾 有 人 担心 建立 语义 网 是 在 从 事 一 项 面向 未 来 和 火箭 科学 家 们 一 样 困难 的 工作 ， 
但 事实 并 非 如 此 。 语 义 网 正如 万 维 网 一 样 ,只 要 拥有 明确 的 设想 就 可 以 在 Internet. 上 轻松 
实现 。 只 是 把 很 多 众所周知 的 成 熟 技 术 带 到 Internet. 上 ,让 不 同 的 数据 和 应 用 程序 能 通过 
Web 自动 集成 ,以 消除 以 前 需要 复杂 的 人 为 干预 才能 协调 工作 的 麻烦 。 


12.1.2 层次 结构 


语义 网 构建 在 自 定义 标记 的 XML 和 数据 表示 灵活 的 RDF 基础 上 , 旨 在 应 用 有 效 的 标 
准 和 技术 使 计算 机 能 够 更 多 地 理解 Web 信息 ,从 而 实现 知识 发 现 、 数 据 集成 和 信息 导航 等 ， 
并 将 特定 的 信息 添加 到 万 维 网 上 辅助 服务 的 自动 化 。 

语义 网 的 层次 结构 如 图 12. 1 所 示 , 自 底 向 上 依次 为 Unicode( 统 一 字符 编码 ) 和 URI、 
XML RDF 和 RDF Schema(RDFS) , #4% (Ontology) , 32 $8 (Logic) ,证 明 (Proof) 和 信任 
CTrusO 。 在 语义 网 的 七 层 结构 中 ,XML 、RDF 和 Ontology 三 层 是 核心 和 关键 ,主要 用 于 表 
示 Web 信息 的 语义 。 经 过 长 期 的 研究 和 发 展 ,这 三 层 已 较为 成 熟 ,推出 并 形成 了 一 系列 的 
成 果 和 标准 ,而 证 明 层 正 处 于 探索 之 中 。 
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12.1 语义 网 的 层次 结构 


此 外 ,数字 签名 位 于 层次 模型 的 右 侧 ,贯穿 了 语义 网 的 中 间 四 层 。 数 字 签 名 是 一 种 基于 
Internet 的 安全 认证 机 制 ,用 来 检测 文档 是 否 被 自 改 ,以 证 实 其 可 靠 性 。 当 信息 从 一 个 层次 
传递 到 另 一 个 层次 时 ,可 以 使 用 数字 签名 说 明 信 息 的 来 源 和 安全 性 。 这 样 ,接收 方 可 以 通过 
数字 签名 鉴别 其 来 源 和 安全 性 ,决定 信息 的 可 信任 程度 。 有 了 数字 签名 一 些 重要 的 电子 商 
务 活动 就 可 在 语义 网 上 安全 地 进行 。 其 实 不 仅 对 于 语义 网 ,对 于 所 有 的 信息 交换 系统 数字 
签名 都 非常 重要 。 

1. Unicode 和 URI 层 

Unicode 和 URI 是 整个 语义 网 的 基础 ,其 中 Unicode 负责 资源 的 编码 , URI 负责 资源 
的 标识 。 

Unicode 是 一 个 字符 集 ,该 字符 集中 所 有 的 字符 都 用 两 个 字 节 表示 ,可 以 表示 65536 个 
字符 ,基本 上 包括 了 世界 上 所 有 语言 的 字符 。 语 义 网 的 最 终 目 标 是 构建 一 个 全 球 信息 网 络 ， 
必然 涵盖 各 个 国家 和 民族 的 语言 ,采用 Unicode 作为 其 字符 编码 方案 ,可 以 从 根本 上 解决 跨 
地 区 、 跨 语言 字符 编码 的 格式 标准 问题 。 

URI 是 语义 网 的 根基 。 同 Internet 使 用 URL(Universal Resource Locator, 统 一 资源 
定位 符 ) 标 识 HTML 页 面 一 样 ,语义 网 同样 需要 一 个 类 似 的 规范 ,唯一 标识 网 络 资源 。 语 
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义 网 所 使 用 的 URI 规 范 在 RFC 2396 里 进行 了 详细 说 明 。 任 何 组 织 和 个 人 都 可 以 自由 定 
义 和 使 用 URI。 值 得 注意 的 是 ,URI 5 URL 区 别 很 大 。URL 用 来 标识 网 络 路 径 ,可 以 通 
过 Internet 在 URL 上 访问 到 相应 的 资源 ; 但 一 个 URI 标识 的 资源 可 能 根本 无 法 通过 网 
络 访问 到 ,URI 标识 仅仅 标识 一 个 资源 ,并 不 同时 包含 该 资源 的 访问 路 径 。URI 包含 
URL, URL 是 URI 的 超 集 , URI 支持 语义 网 的 对 象 和 资源 的 精细 标识 ,使 精确 信息 检索 
成 为 可 能 。 

2. XML, Name Space 和 XML Schema 

XML 已 经 成 为 数据 表示 和 数据 交换 的 事实 标准 ,提供 一 种 格式 自由 的 语法 ,用 户 可 以 
按照 自己 的 需要 创建 标记 集 , 并 使 用 这 些 标记 编写 XML 文档 。 正 因为 任何 人 都 可 以 自由 
定义 标记 ,所 以 不 可 避免 地 会 发 生 标记 同名 的 情况 。W3C 引入 命名 空间 (namespaces) 机 
制 , 即 在 标记 前 面 加 上 URI 索 引 , 以 消解 这 种 冲突 。XML Schema 提供 了 一 种 对 XML X 
档 进行 数据 校 验 的 机 制 ,基于 XML 语法 提供 多 种 数据 类 型 ,对 XML 标记 的 结构 和 使 用 方 
法 进行 了 规范 。XML Query 是 在 XML 基础 上 发 展 起 来 的 技术 标准 ,类 似 的 还 有 XPath 
等 ,使 用 这 些 技术 可 以 对 XML 文档 进行 数据 检索 .提取 结 点 等 操作 。 

然而 , 随 着 XML 在 数据 交换 和 应 用 集成 等 领域 的 广泛 应 用 ,人 们 逐渐 发 现 XML 仅 适 
用 于 表示 数据 的 语法 , 却 不 能 涵盖 数据 的 语义 。 鉴 于 XML 受到 业界 的 普遍 支持 ,并 且 已 经 
具备 了 较 完 备 的 技术 标准 ,在 语义 网 的 体系 框架 中 将 其 作为 数据 表示 的 语法 层 。 

3. RDF 和 RDF Schema 层 

XML 不 适 于 表达 数据 的 语义 ,因此 数据 的 语义 定义 和 互 操作 需要 由 更 高 一 层 完 成 。 
因此 ,W3C 组 织 开 发 了 一 种 新 的 语言 以 描述 Internet 的 资源 及 其 关系 , 即 资 源 描述 框架 
(Resource Description Framework, RDF). RDF 采用 三 元 组 又 称 为 陈述 (statement) ,表示 
互联 网 的 资源 、 属 性 和 值 。 三 元 组 由 主体 (subject) ,谓词 (predicate) 和 客体 (object) 组 成 ,分 
别 对 应 陈述 中 的 资源 .属性 和 值 。RDF 提供 了 一 套 标准 的 数据 语义 描述 规范 ,但 它 还 需要 
定义 描述 中 使 用 的 词汇 。RDF Schema(RDFS) 提 供 了 一 种 面向 计算 机 可 理解 的 词汇 定义 ， 
提供 了 描述 类 和 属性 的 能 力 。RDFS 在 RDF 的 基础 上 引入 类 、 类 之 间 的 关系 、 属 性 之 间 的 
关系 以 及 属性 的 定义 域 与 值 域 等 。 如 同一 部 字典 ,计算 机 通过 它 可 以 理解 数据 的 含义 。 
RDFS 明显 区 别 于 对 象 模型 的 是 属性 独立 于 类 ,一 个 属性 可 以 应 用 于 多 个 类 或 实例 。 

RDF 构建 了 一 套 完整 的 语法 以 便于 计算 机 自动 分 析 和 处 理 ,包括 三 种 常用 的 表示 方 
法 , 即 图 形 .N3 和 XML。 其 中 ,图 形 表示 是 对 RDF 模型 的 直接 描述 ,可 以 直接 明了 地 观察 
RDF 数据 及 其 关系 ; N3 是 一 种 三 元 组 的 方式 ,通过 枚 举 RDF 模型 中 的 每 个 陈述 表述 RDF 
模型 ,最 易 使 用 ,简明 易 懂 ; RDF/XML 将 RDF 以 XML 语法 描述 ,将 XML 的 解析 和 解释 
过 程 结 合 。 这 样 RDF 在 带 助 解析 器 阅读 XML 的 同时 ,可 以 获取 XML 表达 的 语义 ,并 可 以 
根据 其 关系 进行 推理 ,从 而 做 出 基于 语义 的 判断 。 但 是 RDF/XML 常常 因为 过 于 复杂 而 难 
以 使 用 。 

该 层 用 于 描述 万 维 网 的 资源 及 其 类 型 ,为 Web 资源 描述 提供 一 种 通用 框架 和 实现 数据 
集成 的 元 数据 方案 。 最 底层 的 URI 标识 Web 对 象 ,RDF 和 RDFS 层 则 可 对 URI 标识 的 对 
象 进行 陈述 。 

4. 本 体 层 

本 体 层 用 于 描述 各 种 资源 之 间 的 联系 ,本 体 揭示 了 资源 本 身 及 资源 之 间 更 为 复杂 和 让 


富 的 语义 ,从 而 将 信息 的 结构 和 内 容 分 离 , 对 信息 进行 完全 形式 化 的 描述 ,使 Web 信息 具有 
计算 机 可 理解 的 语义 。 因 为 本 体 定 义 了 不 同 概念 间 的 关系 ,所 以 本 体 层 能 够 对 字典 (或 词 
汇 ) 的 演化 提供 支持 。 

作为 语义 网 中 最 为 核心 的 一 层 ,本 体 层 在 RDF 和 RDFS 进行 基本 的 类 /属性 描述 的 基 
础 上 ,更 进一步 地 描述 本 体 及 其 关系 。 这 一 层 具 有 专用 的 本 体 描述 语言 ,如 SHOE(Simple 
HTML Ontology Language) .OIL(Ontology Inference Language) .DAML(DARPA Agent 
Markup Language) 以 及 DAML 十 OIL 等 。RDF 也 是 一 种 简单 的 本 体 描述 语言 ,但 其 描述 
能 力 较 弱 ,需要 扩展 。OWL 是 W3C 推荐 的 本 体 描述 语言 ,其 实现 较 多 地 参考 了 DAML 十 
OIL 的 设计 思想 和 经 验 。 

5. 逻辑 层 

逻辑 层 用 来 产生 规则 ,主要 提供 公理 和 推理 规则 ,为 智能 推理 提供 基础 。 

近年 来 , 随 着 研究 的 不 断 深入 ,描述 逻辑 (Description Logic,DL) 作 为 一 种 较为 成 熟 的 
知识 表示 方法 引入 ,对 于 OWL 规范 的 制定 起 到 了 一 定 程 度 的 指导 作用 。 最 近 , 研 究 人 员 已 
经 开始 尝试 在 OWL 加 入 规则 形成 OWL 的 规则 语言 ORLCOWL Rules Language) ,以 更 好 
地 实现 自动 推理 。 

6. 证 明 层 

证 明 层 执行 逻辑 层 产生 的 规则 ,主要 提供 认证 机 制 ,并 结合 信任 层 的 应 用 机 制 评判 是 否 
能 够 信赖 给 定 的 证 明 。 

证 明 层 使 用 逻辑 层 定 义 的 推理 规则 进行 迎 辑 推理 ,得 出 某 种 结论 。 对 于 语义 网 的 用 户 
而 言 ,这 一 推理 过 程 应 该 是 建立 在 可 靠 的 数据 基础 上 ,应 该 是 公开 的 ,而 且 推 理 得 到 的 结论 
也 应 该 是 可 验证 的 。 

7. 信任 层 

信任 层 主 要 提供 信任 机 制 , 以 保证 用 户 代理 (agent) 在 Web. 上 进行 个 性 化 服务 和 交互 
更 安全 可 靠 。 

在 语义 网 内 进行 推理 并 最 终 得 出 的 结论 应 该 是 可 以 信任 的 ,这 需要 满足 的 条 件 如 下 : 

(1) 可 以 信任 所 见 的 数据 , 即 上 下 文 ， 

(2) 可 以 信任 所 做 的 推理 过 程 。 

满足 上 述 两 点 , 才 可 以 信任 最 终 得 到 的 推理 结果 。 使 用 语义 网 的 RDF 模型 ,任何 人 都 
可 以 对 任何 资源 进行 描述 ,不同 立场 的 人 对 相同 的 资源 可 能 会 做 出 完全 相反 的 描述 。 信 任 
层 负责 为 应 用 程序 提供 一 种 机 制 ,以 决定 是 否 信任 给 出 的 论证 。 信 任 层 的 建立 ,使 智能 代理 
在 网 络 上 实现 个 性 化 服务 以 及 彼此 间 的 自动 交互 具备 可 靠 性 和 安全 性 。 


12.1.3 元 数据 


元 数据 是 描述 数据 的 数据 ,是 对 万 维 网 信息 的 一 种 描述 方式 ,是 机 器 可 理解 的 信息 。 

元 数据 由 一 系列 属性 或 元 素 组 成 ,以 实现 查询 、 阅 读 、 交 换 和 共享 。 例 如 图 书馆 元 数 
据 一 一 图 书馆 目录 ,包括 一 系列 描述 书籍 和 书面 的 数据 ,如 作者 、 出 版 日 期 \ 出 版 社 和 书 名 等 
元 素 。 

元 数据 与 其 所 描述 的 资源 之 间 的 关联 方式 主要 包括 : 
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CD 元 素 包 含 在 独立 于 该 资源 的 记录 中 ,如 图 书馆 目录 ; 

(2) 数据 向 在 资源 本 身 。 

Internet 中 元 数据 的 概念 非常 流行 ,其 重要 作用 体现 在 : 

CD. 组 织 和 管理 网 络 信息 .挖掘 信息 资源 ,通过 元 数据 可 以 在 万 维 网 上 准确 地 识别 、 定 
位 和 访问 信息 。 

(2) 查询 所 需 信息 。 

(3) 组 织 和 维护 一 个 机 构 对 数据 的 投资 。 

(4) 建立 数据 目录 和 数据 交换 中 心 。 通 过 数据 目录 和 数据 交换 中 心 等 提供 的 元 数据 ， 
用 户 可 以 共享 信息 ,维护 及 优化 数据 等 。 

(5) 提供 数据 转换 的 信息 。 用 户 在 获取 信息 的 同时 可 以 得 到 元 数据 ,通过 元 数据 可 理 
解 信息 和 自身 信息 集成 在 一 起 ,进行 科学 分 析 和 决策 。 

元 数据 的 编写 是 有 标准 的 ,通常 不 同 领域 根据 不 同 的 需求 制定 一 种 或 多 种 标准 。 标 准 
的 制定 可 实现 数据 的 交换 和 共享 。 一 些 重要 的 元 数据 标准 包括 MARC(Machine Readable 
Cataloging, 机 器 可 读 编目 ) 和 Dublin Core 等 。 

1. Dublin Core 

美国 在 线 计算 机 图 书 中 心 (Online Computer Library Center,OCLC) 从 用 户 的 角度 出 
发 ,创建 了 一 种 新 的 网 络 资源 描述 标准 或 格式 ,都 柏林 核 (Dublin Core,DC) 元 数据 标准 应 运 
而 生 。 

当前 ,DC 元 数据 集 包括 15 个 核心 元 素 , 分 别 是 : 

。 TITLE 对 象 的 名 称 ,由 创建 者 或 出 版 商 给 出 。 

* SUBJECT 对象 所 涉及 的 主题 ,包括 资源 或 对 象 的 关键 字 。 

* DESCRIPTION 资源 内 容 的 描述 。 

* SOURCE 对 象 的 来 源 。 

。 LANGUAGE 文字 内 容 采 用 的 语言 。 

* RELATION 和 其 他 对 象 的 关系 。 

。 COVERAGE 对 象 的 空间 位 置 和 时 间 持 续 性 特征 。 

* CREATOR 资源 内 容 的 责任 人 。 

* PUBLISHER 能 获取 对 象 的 责任 代理 。 

* CONTRIBUTOR 主要 负责 对 象 文字 内 容 的 人 。 

* RIGHTS 资源 权限 管理 的 声明 。 

。 DATE 发 布 日 期 。 

。 TYPE 对 象 的 类 型 。 

* FORMAT 对象 的 数据 格式 。 

* IDENTIFIER 唯一 标识 对 象 的 字符 串 或 数字 ,如 URL 或 URI。 

2. HL7 

HL7(Health Level 7) 是 由 美国 国家 标准 局 授权 的 标准 开发 机 构 HL7 研发 的 一 个 专门 
用 于 医疗 卫生 机 构 及 医用 仪器 .设备 数据 信息 传输 的 标准 。 

HL7 适用 于 医院 内 部 不 同 医疗 信息 系统 之 间 交 换 病例 资料 .临床 检验 结果 和 财务 信 
息 ,便于 医院 内 部 信息 的 交换 和 管理 。 同 时 ,HL7 也 适用 于 医院 与 医院 、 医 院 与 保险 公司 、 


医院 与 上 级 主管 部 门 之 间 大 量 信息 的 交换 需要 。 

HL7 可 应 用 于 多 种 操作 系统 和 硬件 环境 ,也 可 以 进行 多 个 应 用 系统 之 间 文 件 和 数据 的 
交换 ,所 有 不 同 平台 的 医院 信息 管理 系统 通过 HL7 都 可 以 顺利 交互 。 采 用 HL? 作为 标准 
的 HIS 和 医用 仪器 .设备 可 以 实现 无 颖 连接 和 医学 数据 信息 的 无 障碍 交换 。 

HL7 的 应 用 不 仅 使 医院 内 部 不 同系 统 间 的 交互 大 大 简化 ,更 便于 各 医院 以 及 医院 与 其 
他 机 构 之 间 的 联系 。 

3. IMS 

IMS 是 一 个 全 球 性 的 学 习 组 织 , 以 发 展 及 推广 开放 性 规范 (open specification) 为 主要 
任务 ,主要 发 展 和 推广 有 关 教 育 的 开放 规范 ,以 促进 在 线 分 布 式 的 学 习 活 动 。IMS 全 球 学 
习 联 盟 的 两 大 目标 是 其 一 达成 分 布 式 学 习 环 境 下 应 用 系统 或 服务 的 互 操作 性 ,定义 \ 发 展 所 
需 的 技术 规范 ; 其 二 协助 其 他 单位 将 IMS 规范 纳入 产品 或 服务 中 。 

由 于 IMS 并 非 开发 性 组 织 , 所 制定 的 规范 需要 由 正式 的 标准 制定 机 构 ( 如 IEEE 等 ) 进 行 
公开 、 公 正 的 讨论 和 审核 ,投票 通过 后 才能 成 为 正式 的 标准 。 目 前 ,IMS 开发 完成 的 规范 分 别 
是 IMS 学 习 资 源 元 数据 说 明 (IMS Learning Resource Metadata Specification) „IMS 企业 说 
明 (IMS Enterprise Specification) , IMS 学 习 者 信息 包装 说 明 (IMS Learner Information 
Package Specification) 和 IMS 问题 与 测试 互 操作 说 明 (IMS Question&-Test Interoperability 
Specification) 。 

实现 元 数据 的 技术 手段 是 XML 和 RDF。XML 从 数据 和 文档 的 底层 实现 格式 化 ,保证 
从 处 理 到 交换 的 一 致 性 ,有 利于 在 网 络 环境 下 采用 通用 的 搜索 引擎 等 工具 ,为 实现 广义 数字 
图 书馆 (虚拟 数字 图 书馆 ) 提 供 可 能 。 

由 于 不 同 领域 甚至 同一 领域 存在 多 个 元 数据 标准 , 当 在 不 同 元 数据 标准 描述 的 资源 体 
系 之 间 检 索 时 , 则 存在 元 数据 的 互 操作 性 问题 。 利 用 特定 的 转换 程序 对 不 同 的 元 数据 标准 
进行 转换 , 称 为 元 数据 映射 (Metadata Mapping/Crosswalking)。 目 前 出 现 了 大 量 的 转换 程 
FF ,实现 各 种 元 数据 标准 的 转换 。 例 如 DC 与 USMARC,DC 5 EAD(Encoded Archival 
Description ,编码 档案 描述 ) , DC 与 GILS(Government Information Locator Service, BUN fA 
息 定 位 服务 )、GILS 与 MARC TEI, Header 与 MARC, FGDC (Federal Geographic Data 
Committee) 55 MARC 等 。 也 可 以 利用 一 种 中 间 格 式 对 多 种 元 数据 进行 转换 。 相 比 之 下 ， 
格式 映射 转换 准确 且 效率 较 高 。 

元 数据 有 四 种 类 型 , 即 内 容 元 数据 ,管理 元 数据 .负载 信息 元 数据 和 参考 信息 元 数据 , 它 
们 从 不 同 的 维度 ,不同 的 层次 描述 电子 文档 或 资源 。 其 中 : 

* 内 容 元 数据 “描述 对 象 内 容 的 信息 。 

。 管理 元 数据 ”描述 与 电子 文档 相关 的 信息 。 

。 负载 信息 元 数据 “提供 电子 文档 的 物理 属性 。 

。 参考 信息 元 数据 ” 源 自 电 子 文档 中 的 超 链接 。 在 此 “链接 ”的 概念 扩展 到 更 一 般 的 

概念 ,用 来 表示 任何 万 维 网 信息 ,文档 和 资源 的 参考 链接 。 


12.1.4 核心 技术 


语义 网 的 体系 结构 中 ,XML JZ RDF 层 以 及 本 体 层 是 最 核心 的 ,它们 是 语义 网 知识 表 
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示 的 基础 ,为 上 层 的 推理 、 验 证 等 黄 定 了 基础 ,也 是 目前 发 展 较为 成 熟 的 三 种 技术 ,下 面 将 分 
别 简要 介绍 。 

1. XML 

传统 的 Internet 以 HTML 格式 存储 和 组 织 分 布 式 的 文档 ,这 带 来 的 主要 问题 是 ， 

* 任何 人 只 要 发 现 HTML 不 足以 满足 其 需求 时 ,就 简单 地 在 文档 中 增加 标签 ,结果 导 

SUCK it . 非 标准 的 HTML 出 现 。 
* HTML 标签 主要 是 面向 显示 的 ,并 不 包含 语义 ,因此 很 难 让 机 器 抽取 内 容 以 及 自动 
地 处 理 文档 。 

为 了 解决 上 述 问 题 ,W3C 开发 了 XML 标准 ,并 确定 XML 为 语义 网 底层 的 数据 交换 格 
式 。XML 通过 制定 标准 容许 用 户 自 行 定 义 标签 ,并 通过 文档 类 型 定义 (Data Type 
Definition,DTD) 或 XML Schema 约束 这 些 标 签 的 内 部 结构 ,并 解决 了 不 同 应 用 之 间 命 名 
冲突 的 问题 。XML 成 功 地 实现 了 文档 的 内 容 与 表示 的 分 离 , 成 为 应 用 程序 之 间 交 换 数据 
的 最 佳 选 择 。 

XML 的 可 扩展 性 、 自 我 描述 性 及 良好 的 结构 定义 ,为 语义 网 提供 了 完美 的 底层 数据 交 
换 格式 ,并 通过 XML Schema 规定 交换 数据 的 数据 结构 。 然 而 XML 并 不 能 对 所 使 用 的 标 
签 提供 语义 解释 ,对 机 器 语义 理解 没有 太 大 帮助 。 因 此 ,基于 XML 构建 了 RDF 标准 ,实现 
对 信息 资源 的 语义 描述 。 

2. 资源 描述 框架 语言 

Web 数据 是 计算 机 可 读 的 ,但 不 是 计算 机 可 理解 的 ,因此 Web 数据 难以 实现 计算 机 自 
动 处 理 。 解 决 这 一 难题 的 途径 是 采用 元 数据 索引 Web 信息 ,然后 使 用 资源 描述 框架 
(Resource Description Framework ,RDF) 描 述 元 数据 与 元 数据 之 间 的 关系 。RDF 是 处 理 元 
数据 的 基础 ,为 在 应 用 程序 之 间 交 换 机 器 可 理解 的 Web 数据 提供 了 可 互 操作 性 。RDF 的 
应 用 广泛 ,如 采用 RDF 的 智能 主题 可 提高 机 构 之 间 知识 共享 和 交换 的 能 力 。 

RDF 定义 一 个 简单 的 数据 模型 ,通过 性 质 (property) 和 值 (value) 描 述 资源 以 及 资源 与 
资源 之 间 的 关系 。 如 果 将 RDF 的 性 质 看 做 是 资源 的 属性 , 则 RDF 也 可 以 看 作 传 统 的 二 属 
性 , 值 二 模型 。 此 外 ,RDF 还 可 以 描述 资源 与 资源 之 间 的 关系 ,因此 RDF 类 似 于 一 个 实体 
关系 图 。 

RDF 的 表示 方法 有 三 种 , 即 图 示 法 、 模 型 和 三 元 组 。 在 RDF 模型 中 ,资源 以 资源 标识 
符 表示 ,资源 标识 符 由 一 个 唯一 资源 标识 符 和 一 个 可 选 的 锚 (anchor)ID 组 成 。 

RDF 提供 了 一 个 开放 的 表达 Web 资源 的 元 数据 描述 模型 ,由 一 系列 的 陈述 即 主体 - 谓 
词 -客体 三 元 组 组 成 。 可 以 表达 Web 上 可 标识 的 任何 资源 ,如 标题 ,作者 、Web 文档 的 版 权 
和 注册 信息 .语言 .格式 和 条 目 等 。RDF Schema 是 一 个 描述 RDF 资源 的 属性 和 类 的 词汇 
表 , 提 供 了 关于 这 些 属性 和 类 的 层次 结构 的 语义 ,从 某 种 程度 上 拓展 了 这 种 资源 描述 的 能 
力 , 可 以 看 成 是 轻 量 级 的 Web 本 体 语言 。 

下 面 介绍 RDF 和 XML 的 主要 区 别 。 

OD XML 不 包含 语义 ,RDF 包含 语义 。 

判断 是 否 包含 语义 ,需要 知道 语义 的 含义 ,机 器 可 理解 的 语义 是 指 由 符号 表示 的 对 象 与 
对 象 之 间 的 关系 ; 而 语法 则 是 指 符号 与 符号 之 间 的 关系 。 

之 所 以 说 XML&XML Schema 不 包含 语义 ,是 指 它们 并 不 能 使 机 器 理解 对 象 与 对 象 之 


间 的 含义 ; 而 RDF&RDF Schema 之 所 以 包含 语义 ,是 指 它们 能 表达 标签 所 对 应 的 对 象 之 
间 的 含义 ,而 且 包含 了 谓词 逻辑 并 支持 推理 ,如 图 12. 2 所 示 。 


«rdf:Description rdf:about = "http://www. famouswriters. org/twain/mark"> 
< s: hasNane» Mark Twain </s:hasName > 

«s:hasWritten rdf:resource = "http://www. books. org/ISBN0001047582"» 
«/rdf:Description» 

< rdf :Description rdf:about = "http://www. books. org/ ISBN0001047582"» 
«s:title» The Adventures of Tom Sawyer «/s:title? 

< rdf:type rdf:resource = "http://www. description. org/schema # Book" 
«/rdf:Description» 


图 12.2 RDF 实例 


图 12. 2 所 示 的 例子 表达 的 是 Mark Twain 写 了 The Adventures of Tom Sawyer 一 
书 , 即 在 二 者 之 间 建 立 了 hasWritten( 已 写 ) 的 关系 ,这 种 关系 也 可 以 在 RDFS 中 进行 描述 ， 
这 种 关系 能 在 RDFS 与 其 他 词汇 之 间 建 立 联系 (如 父子 关系 、 定 义 域 . 值 域 等 )。 

上 述 例子 以 XML 表示 如 图 12. 3 Bros. 


<description> 
< hasNane > Mark Twain </hasName > 
<hasWritten> 
<description> 
<book> 
<title> The Adventures of Tom Sawyer </title> 
</book > 
</description> 
</hasWritten> 
</description> 


12.3 XML 实例 


通过 上 述 结构 ,人 们 可 以 明显 地 看 出 其 中 的 关系 ,但 机 器 仍然 无 法 理解 Mark Twain 和 
The Adventures of Tom Sawyer 是 什么 关系 ,而 只 知道 它们 分 别 是 树 结 构 中 的 第 二 级 结 点 
和 第 五 级 结 点 。 

因此 ,RDF 用 来 描述 资源 (或 对 象 ) ,并 建立 它们 之 间 的 语义 关系 。 

(2 XML 的 结构 是 树 ,RDF 的 结构 是 图 。 

RDF 的 三 元 组 在 文件 中 出 现 的 顺序 是 随意 的 ,三 元 组 有 多 个 谓词 和 客体 时 ,其 在 陈述 
中 被 定义 的 顺序 也 是 随意 的 ; 而 XML 中 一 个 结 点 出 现 的 顺序 却 不 能 更 换 。 

(3) XML Schema 定义 的 是 XML 的 词汇 表 , 而 RDF Schema 定义 的 是 词汇 类 型 。 

XML Schema 定义 了 XML 中 的 词汇 及 其 在 树 状 结构 中 的 位 置 关系 ,而 RDF 的 词汇 集 
太 大 了 ,大 到 RDF Schema 无 法 描述 ,因此 RDF Schema 定义 的 是 RDF 中 的 词汇 类 型 ,并 且 
定义 了 概念 间 的 语义 ,如 概念 的 父子 关系 、 定 义 域 及 值 域 等 。 

然而 , 同 其 他 知识 表示 语言 相 比 RDF Schema 显得 过 于 简单 ,语义 表达 能 力 不 够 ,需要 
更 上 层 对 其 语义 解释 能 力 的 进一步 扩展 。 

3. 本 体 

本 体 是 支持 知识 共享 和 重用 的 形式 化 结构 ,将 信息 的 结构 和 内 容 分 离 ,实现 对 信息 进行 
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完全 形式 化 的 描述 ,为 信息 提供 一 个 统一 的 共同 表达 的 语义 结构 。 
本 体 的 主要 作用 是 : 
* 为 人 类 和 应 用 系统 提供 一 个 对 于 主题 的 共同 理解 。 
* 为 不 同 来 源 的 信息 合成 提供 一 个 共同 的 相关 领域 的 理解 。 
* 为 不 同 的 应 用 程序 之 间 共 享 信息 和 知识 ,描述 应 用 程序 的 领域 ,定义 术语 及 其 关系 。 
对 于 以 概念 的 共享 和 理解 为 核心 的 语义 网 ,本 体 提 供 了 语义 知识 的 明确 化 表示 方法 , 因 
此 本 体 在 语义 网 中 处 于 核心 支配 地 位 ,后 面 将 详细 介绍 本 体 。 


12.1.5 开发 工具 Jena 


Jena 是 一 套 开发 语义 网 应 用 的 Java API, 包 括 对 RDF、RDFS 和 OWL 描述 的 本 体 模型 
的 解析 、 创 建 和 串 行 化 等 ,SPARQL 语句 的 解析 ,转化 为 SQL 以 及 基于 规则 的 推理 引擎 。 

Jena 提供 了 读 取 、 创 建 和 输出 模型 的 Java API。 其 主要 的 数据 结构 是 图 ,但 是 用 户 操 
作 主 要 还 是 在 模型 上 进行 。 基 本 方法 是 通过 ModelFactory 建 模 ,然后 通过 模型 创建 资源 ， 
再 通过 资源 添加 属性 ,逐步 构成 一 个 图 。 

通过 model. listStatement() 方 法 可 以 得 到 所 有 Statement 的 游标 ,可 以 遍历 模型 中 所 
有 的 三 元 组 。 iie :元 组 各 部 分 时 需 注意 ,对 象 可 以 是 字符 也 可 以 是 资源 ,需要 测试 。 

RDF 图 中 的 一 个 结 点 或 本 体 中 的 一 个 资源 ,在 RDF 中 以 二 rdf: Description rdf: about = 
$ (uri) >F th, ai URI。 如 果 下 面 有 匿名 资源 ,或 者 图 中 有 空白 结 点 则 用 
< $ (prediction) rdf: nodeid— " $ {anonymousenodeid)" 二 ,另外 再 使 用 rdf: et 
述 该 空 结 点 , 即 二 rdf: Description rdf: nodeid — " $ {anonymousenodeid}" 当然 ,人 工 编 
写 时 通过 内 套 可 以 不 用 创建 匿名 资源 。 


12.1.6 Web 3.0 


Internet 经 历 了 翻天 覆 地 的 重大 变革 。 伴 随 着 从 Web 1.0 向 Web 2.0 的 过 渡 , Web 
3.0 已 开始 逐渐 步 人 人 们 的 视野 。Web 2. 0 虽然 只 是 互联 网 发 展 阶段 的 过 渡 产 物 , 但 正 是 
由 于 Web 2.0, 让 人 们 可 以 更 多 地 参与 到 Internet, 特 别 是 内 容 上 的 创造 。 在 这 一 点 上 Web 
2.0 具有 革命 性 的 意义 。 正 是 因为 更 多 的 人 参与 到 了 有 价值 的 创造 活动 ,那么 要 求 互 联网 
价值 的 重新 分 配 将 是 一 种 趋势 ,因而 必然 催生 新 一 代 Internet 一 一 Web 3.0。 

Web 3.0 开发 者 们 的 目标 是 建造 一 个 能 针对 简单 问题 给 出 合理 、 完 全 答复 的 系统 。 
Web 3. 0 标准 的 核心 是 : 

CD 继承 Web 2.0 的 所 有 特性 。 如 以 用 户 为 中 心 ,用 户 创造 内 容 , 广 泛 采 用 Ajax BOR. 
广泛 采用 RSS HERA. RH BLOG 大 行 其 道 ,Internet 上 涌现 大 量 的 个 人 原创 日 志 等 。 

(2) 帮助 用 户 实现 其 劳动 价值 。 目 前 的 Web 2. 0 几乎 都 是 用 户 免 费 劳动 ,免费 生产 内 
容 娱 人 娱 已 。 用 户 很 难 通 过 Web 2. 0 网 站 把 自己 辛 辛 苦 苦 生 产 的 内 容 兑 换 成 真实 货币 。 
Web 3. 0 的 首要 任务 是 让 他 们 不 再 浪费 劳动 力 ,实现 劳动 价值 。 

(3) 网 站 无 边界 ,遵守 Web 3. 0 标准 的 网 站 可 以 方便 地 在 数据 、 功 能 上 实现 彼此 的 互 
通 、 互 动 。 未 来 的 Internet 是 合作 、 共 赢 、 资 源 互 补 、 互 促 的 Internet。 分 久 必 合 ,有 相关 利 


益 的 网 站 会 联合 起 来 , 趋 于 一 体 化 。 一 个 强 有 力 的 、 方 便 的 对 外 交互 的 标准 是 每 个 Web 3.0 
网 站 都 必须 实现 的 。 

(4) 具备 更 清晰 ,可行 的 一 利 模 式 。 现 在 的 Web 2.0 网 站 大 部 分 没有 清晰 可 行 的 盈利 
模式 ,这 是 商业 网 站 的 致命 弱点 。 有 些 Web 2.0 网 站 有 一 些 广告 收入 ,但 只 是 杯水车薪 ,一 
开始 投资 太 大 、 烧 钱 太 多 、 人 不 甫 出 ,注定 要 成 为 饿 死 的 骆驼 。 

(5) 不 仅 限于 Internet 应 用 ,这 是 Web 3. 0 标准 的 外 延 ,可 以 应 用 到 其 他 非 互联 网 
行业 。 

实现 Web 3. 0 的 三 个 前 提 是 : 

(1) 博客 技术 为 代表 ,围绕 网 民 互 动 及 个 性 体验 的 互联 网 应 用 技术 的 完善 和 发 展 。 

(2) 虚拟 货币 的 普及 ,以 及 虚拟 货币 的 兑换 成 为 现实 。 

(3) 大 家 对 网 络 财富 的 认同 ,以 及 网 络 财务 安全 的 解决 方案 。 

Web 3.0 与 Web 2.0 一 样 ,不 是 技术 的 创新 而 是 观念 的 创新 ,进而 引领 技术 的 发 展 和 
应 用 。Web 3.0 将 催生 新 的 王国 ,不 再 以 地 域 进 行 划分 ,而 是 以 兴趣 .语言 主题. 职业、 专业 
进行 聚集 和 管理 的 王国 ,可 谓 “ 皇 帝 轮流 做 ,明年 到 我 家 ”, 每 个 用 户 都 有 机 会 打造 出 一 个 新 
的 互联 网 王国 而 成 为 一 个 国王 ,也 有 可 能 在 互联 网 王国 的 民主 竞选 中 成 为 “总 统 ”, 到 时 将 拥 
有 来 自 全球 各 个 角落 的 网 络 公民 。 

过 去 的 Web 1.0 采用 超 链 接 解 决 了 信息 孤岛 的 连接 问题 , Web 2.0 解决 了 网 络 发 言 权 
的 解放 问题 , Web 3. 0 则 是 要 解决 海量 信息 在 细 化 后 的 定向 搜索 与 获 利 机 制 问题 。 当 Web 
3.0 为 用 户 提 供 了 更 好 的 提升 自我 的 整合 能 力 后 ,这 意味 着 能 够 更 好 地 成 为 一 个 围绕 用 户 
服务 的 整合 中 心 ,这 正 是 我 们 期 待 未 来 的 Web 3. 0 受到 用 户 欢迎 的 原因 。 

Web 1.0 被 Web 2. 0 重新 洗 牌 后 ,人 人 都 有 话语 权 , 但 是 谁 来 听 , 谁 来 买单 才 是 根本 。 
也 许 正 是 因为 还 不 涉及 利益 分 配 的 原因 ,Web 2. 0 得 以 迅速 发 展 。 同 样 ,因为 Web 2.0 还 
没有 形成 良性 的 商业 回报 机 制 ,所 以 一 个 能 解决 “利益 分 配 ” 问 题 一 一 将 主要 利益 分 配给 最 
有 贡献 的 内 容 提 供 者 的 Web 3.0 便 应 运 而 生 。 

随 着 Internet 的 日 新 月 异 ,Web 3. 0 将 是 彻底 改变 人 类 生活 的 互联 网 形式 。Web 3.0 
使 所 有 网 民 不 再 受到 现 有 资源 的 限制 ,具有 更 加 平等 地 拥有 获得 财富 和 声誉 的 机 会 。 事 实 
上 ,Web 3.0 已 经 投入 使 用 ,只 不 过 是 了 解 不 多 ,如 电子 商务 和 在 线 游戏 ,不 管 是 B2C 还 是 
C2C 模式 ,网 民利 用 Internet 提供 的 平台 进行 交易 ,整个 过 程 中 他 们 通过 Internet 付出 了 劳 
动 并 收获 了 财富 。 在 线 游戏 通过 积分 的 方式 ,角色 扮演 者 通过 攻 城 掠 寨 、 花 费 大 量 的 时 间 不 
断 修炼 ,他 们 在 那里 可 以 获得 声誉 和 财富 ,而 这 种 财富 通过 一 定 的 方式 可 以 在 现实 中 兑换 ， 
正 所 谓 人 生 如 同一 场 游戏 ,Internet 会 让 人 们 的 生活 变 得 更 像 游戏 。 当 前 的 论坛 也 提供 积 
分 ,但 由 于 缺乏 个 性 ,不 会 成 为 未 来 的 主流 ,最 有 代表 性 的 博客 , 却 在 积分 方面 做 得 很 少 , 劳 
动 价值 没有 得 到 体现 。 为 此 ,好 的 Bloger 将 另起炉灶 ,以 便 得 到 更 多 ,这 是 在 追求 一 种 更 加 
均衡 的 分 配方 式 。 

Web 3. 0 究竟 能 够 做 些 什 么 ? DWS Group 推出 其 第 一 个 Web 3. 0 的 应 用 智能 相册 
(Smart Albums) , 它 是 一 款 简单 易 用 的 图 片 管理 软件 , 集 相 册 分 类 、 图 片 标签 和 图 片 搜索 等 
功能 为 一 体 ,并 可 以 日 历 模式 展现 ,还 可 以 对 图 片 进 行 加 密 保存 等 。Web 3.0 在 医疗 领域 已 
有 应 用 , 据 调 查 美国 的 所 有 医学 测试 中 , 近 40% 是 因为 不 知道 病人 以 前 的 测试 结果 而 进行 
的 。 所 幸 的 是 ,在 电子 病例 领域 ,现在 出 现 了 WorldVista 的 开源 标准 ,这 个 由 VA 开发 的 基 
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于 Vista 的 标准 向 所 有 人 开放 ,能 够 形成 一 个 全 球 性 的 可 互 换 医 疗 信息 系统 。Google 目前 
已 完成 了 从 信息 制作 组 织 .存储 、 检 索 ,发布 . 翻 译 和 服务 ,以 及 无 线 服 务 Google SMS 的 一 
整 条 Web 3. 0 产业 链 的 构建 。Web 3. 0 时 代 网 络 连接 速度 将 达到 10Gbps, 越 来 越 多 的 家 
庭 都 用 上 了 数据 传输 速率 达 2 一 3Gbps 的 连接 ,用 户 可 以 观看 电影 片花 等 多 媒体 内 容 , 为 
eBay Salesforce. com 等 互联 网 巨头 开拓 了 新 的 市 场 。 可 见 , Web 3. 0 作为 一 种 新 的 理念 ， 
逐步 融入 我 们 的 生活 。 

很 多 Web 3.0 的 尝试 已 经 开始 ,但 这 些 尝试 聚合 起 来 还 需要 一 个 漫长 的 过 程 ,现在 的 
Web 3. 0 如 同一 堆 碎 石 ,等 待 被 整理 为 一 条 畅通 的 公路 。 我 们 今天 描述 Web 3. 0, 就 如 同 当 
年 在 Internet 诞生 之 前 想象 Web 1.0 一 样 。 

无 论 如 何 , 我 们 已 经 奔驰 在 信息 高 速 公 路 上 ,大 家 需要 重新 认识 信息 的 本 质 。 现 在 要 做 
的 是 按照 信息 在 现实 中 存在 的 属性 和 信息 之 间 的 关系 结构 建立 公用 信息 标准 ,并 按照 这 个 
标准 搭建 公用 信息 平台 ,通过 不 断 地 完善 和 升级 ,最 终 实 现 Internet 的 真正 价值 。 


12.2 本 体 


本 体 是 近来 信息 科学 界 最 热门 的 词汇 之 一 。 在 各 种 信息 交互 和 集成 ,知识 表示 与 获取 
的 应 用 中 ,这 一 词汇 频繁 出 现 ,本 体 到 底 是 什么 ? 


12.2.1 哲学 本 源 


本 体 的 概念 最 初 起 源 于 哲学 领域 ,并 在 很 长 一 段 时 期 都 是 哲学 研究 的 一 个 分 支 。 古 希 
腊 哲 学 家 亚 里 士 多 德 (Aristotle) 定 义 本 体 为 “对 世界 客观 存在 物 的 系统 描述 , 即 存在 论 ”, 即 
本 体 是 客观 存在 的 一 个 系统 的 解释 或 说 明 , 所 关心 的 是 客观 现实 的 抽象 本 质 。 为 研究 客观 
世界 的 存在 问题 , 亚 里 士 多 德 . 莱 布 尼 茨 .康德 皮尔 斯 和 怀特 海德 等 哲学 家 广泛 地 讨论 了 如 
何 运用 本 体 对 现实 世界 进行 分 类 、 如 何 描述 其 中 的 物理 实体 、 如 何 定 义 客观 世界 的 抽象 以 及 
空间 与 时 间 的 关系 等 问题 。 虽 然 ,历史 上 对 本 体 的 思考 主要 是 从 哲学 和 迪 辑 学 的 角度 ,但 前 
人 的 研究 成 果 蕴涵 了 很 多 如 何 组 织 现实 世界 知识 的 方法 ,这 为 本 体 被 信息 科学 所 借鉴 奠定 
了 基础 。 逻 辑 在 信息 科学 中 占有 重要 地 位 ,但 人 们 认识 到 逻辑 没有 描述 具体 现实 世界 的 能 
力 , 迎 辑 中 的 存在 量词 符号 仅仅 能 声明 某 物 存在 ,但 多 辑 本 身 却 没有 词汇 来 描述 到 底 存 在 的 
是 什么 ,本体 由 此 被 引入 信息 科学 中 ,以 弥补 多 辑 表达 能 力 的 不 足 。 本 体 包 含 了 观察 与 推理 
两 个 范畴 。 观 察 提供 现实 世界 的 知识 ,描述 知识 的 组 织 形式 ; 推理 通过 虚拟 框架 澄清 观察 
的 意义 ,描述 知识 的 语义 。 

20 世纪 90 年 代 , 信 息 科学 的 发 展 面临 着 种 种 新 难题 ,诸如 知识 表示 、 知 识 共享 和 复 
用 等 。 特 别 地 ,由 于 Internet 的 飞速 发 展 ,如 何 组 织 、 管 理 和 维护 海量 信息 并 为 用 户 提 供 
有 效 的 服务 成 为 一 项 重要 而 迫切 的 研究 课题 。 本 体 作为 一 种 能 在 语义 和 知识 层次 上 描 
述 信息 系统 的 概念 模型 的 建 模 工具 ,引起 了 国内 外 众多 研究 者 的 关注 ,并 在 计算 机 领域 
得 到 广泛 应 用 ,如 知识 工程 .数字 图 书馆 、 软 件 复 用 信息 检索 、Web 异 构 信息 的 处 理 和 语 
义 网 等 。 


12.2.2 定义 


本 体 这 一 哲学 范畴 ,被 人 工 智 能 赋予 了 新 的 定义 ,并 引入 到 信息 科学 中 。 然 而 信息 科学 
界 对 本 体 的 理解 也 是 逐步 发 展 并 走向 成 熟 的 。1991 年 Neches 等 人 最 早 给 出 的 本 体 在 信息 
科学 中 的 定义 是 构成 相关 领域 词汇 的 基本 术语 和 关系 ,以 及 利用 这 些 术 语 和 关系 构成 规定 
这 些 词 汇 外 延 的 规则 。 后 来 随 着 研究 的 深入 ,在 信息 系统 .知识 系统 等 领域 对 本 体 给 出 了 不 
同 的 定义 ,如 1993 年 Gruber 定义 本 体 为 “概念 模型 的 明确 的 规范 说 明 ”; 1997 年 Borst 进 
一 步 完 善 为 “共享 概念 模型 的 形式 化 规范 说 明 ”。Studer 等 人 对 上 述 定义 进行 了 深入 研究 ， 
认为 本 体 是 共享 概念 模型 的 明确 的 形式 化 规范 说 明 。 

Studer 等 人 的 本 体 定 义 包 含 四 层 含 义 : 概念 模型 (conceptualization) 明确 (explicit) 、 
形式 化 (formal) 和 共享 (share) 。 其 中 ,概念 模型 是 指 通过 抽象 客观 世界 中 一 些 现象 的 相关 
概念 得 到 的 模型 ,其 表示 的 含义 独立 于 具体 的 环境 状态 ; 明确 是 指 所 使 用 的 概念 及 使 用 这 
些 概 念 的 约束 都 具有 明确 的 定义 ; 形式 化 是 指 本 体 是 计算 机 可 读 的 ,也 是 计算 机 可 处 理 的 ; 
共享 是 指 本 体 中 体现 的 是 共同 认可 的 知识 ,反映 的 是 相关 领域 中 公认 的 概念 集 , 针 对 的 是 团 
体 而 非 个 体 。 本 体 的 目标 是 捕获 相关 领域 的 知识 ,提供 对 该 领域 知识 的 共同 理解 ,确定 该 领 
域内 共同 认可 的 词汇 ,并 从 不 同 层次 的 形式 化 模式 上 给 出 这 些 词汇 (术语 ) 和 词汇 之 间 相互 
关系 的 明确 定义 。 尽 管 定 义 有 很 多 不 同 的 方式 ,但 就 内 涵 而 言 ,不 同 研究 者 对 于 本 体 的 认识 
是 统一 的 ,都 将 其 看 作 领域 (领域 的 范围 可 以 是 特定 应 用 ,也 可 以 是 更 广 的 范围 ) 内 部 不 同 主 
体 ( 人 、 机 器 .软件 系统 等 ) 之 间 进 行 交 流 ( 对 话 、 互 操作 共享 等 ) 的 一 种 语义 基础 , 即 由 本 体 
提供 一 种 共识 ,而 且 提 供 的 这 种 共识 更 主要 的 是 为 机 器 服务 ,机 器 并 不 能 像 人 类 一 样 理解 自 
然 语言 表达 的 语义 ,目前 的 计算 机 也 只 能 把 文本 看 成 字符 串 进 行 处 理 。 

到 底 什 么 是 本 体 ? 学 术 界 对 此 并 没有 达成 共识 ,引用 较 多 的 是 Gruber 的 定义 , 即 本 体 
是 一 个 共享 的 概念 化 规范 ,而 概念 化 是 指 某 个 领域 中 的 概念 及 其 相互 关系 ,是 我 们 希望 描述 
的 世界 的 一 个 抽象 的 ,简化 的 视图 。 

本 体 与 通常 所 谓 的 词典 的 区 别 在 于 : 

CD 词典 是 人 读 的 ,本 体 必 须 方便 机 器 阅读 。 

(2) 词典 注重 概念 本 身 的 描述 ,本 体 既 注重 概念 本 身 的 描述 ,又 注重 概念 间 之 间 关 系 的 
表示 。 
(3) 词典 通常 以 自然 语言 描述 ,本 体 可 以 用 其 他 符号 语言 描述 。 
经 过 多 年 的 努力 ,研究 人 员 已 经 构建 了 一 些 有 影响 力 的 本 体 。 


12.2.3 id 


本 体 是 一 种 组 织 知识 的 艺术 。 为 研究 如 何 利 用 本 体 组 织 知识 ,Perez 等 人 采用 了 分 类 
法 ,并 归纳 出 五 个 基本 建 模 元 语 : 类 (class) 或 概念 (concept)、 关系 (relation)、 函 数 
(function) ,公理 (axiom) 和 实例 (instance) 。 类 或 概念 表示 对 象 的 集合 ; 关系 表示 领域 中 概 
念 之 间 的 交互 作用 ; 函数 是 一 类 特殊 的 关系 ,该 关系 的 前 n 一 1 个 元 素 可 以 唯一 决定 第 nn 个 
元 素 ; 公理 代表 永 真 断言 ; 实例 代表 元 素 ,就 语义 而 言 表示 的 就 是 对 象 。 关 系 在 本 体 中 非 
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常 重要 ,从 语义 的 角度 ,基本 的 关系 包括 四 种 : part-of, kind-of, instance-of 和 attribute-of 。 
part-of 表示 概念 之 间 部 分 与 整体 的 关系 ; kind-of 表示 概念 之 间 的 继承 关系 ,类 似 于 面向 对 
象 中 父子 类 之 间 的 关系 ; instance-of 表示 概念 的 实例 与 概念 之 间 的 关系 ,类 似 于 面向 对 象 
中 对 象 和 类 之 间 的 关系 ; attribute-of 表示 某 个 概念 是 另 一 个 概念 的 属性 。 实 际 建 模 中 , 概 
念 之 间 的 关系 不 限于 上 述 四 种 基本 关系 ,可 以 根据 领域 的 具体 情况 定义 相应 的 关系 。 本 体 
正 是 通过 这 些 建 模 元 语 组 织 现实 世界 的 知识 。 


12.2.4 分 类 


目前 ,广泛 使 用 的 本 体 包括 WordNet, FrameNet, GUM 和 SENSUS 等 。WordNet 是 
基于 心理 语言 规则 的 英文 词典 ,以 在 特定 的 上 下 文 环境 中 可 互 换 的 同义词 的 集合 为 单位 组 
织 信息 ; FrameNet 英文 词典 采用 称 为 Frame Semantics 的 描述 框架 ,提供 强大 的 语义 分 析 
能 力 ,目前 发 展 为 FrameNet II; GUM 面向 自然 语言 处 理 , 支 持 多 语种 处 理 , 包 括 基本 概念 
及 独立 于 各 种 具体 语言 的 概念 组 织 方式 ; SENSUS 面向 自然 语言 处 理 , 为 机 器 翻译 提供 概 
念 结 构 , 包 括 7 万 多 个 概念 。 

对 于 本 体 的 分 类 有 着 不 同 的 标准 。 常 用 的 本 体 划 分 准则 是 详细 程度 和 领域 依赖 程度 。 
详细 程度 是 为 了 描述 或 刻画 建 模 对 象 的 程度 ,高 的 称 作 参考 本 体 (reference ontology) , 低 的 
称 作 共享 本 体 (share ontology)。 根 据 依 赖 程 度 可 以 划分 为 四 类 , 即 : 

(1) 顶级 (top-level) 本 体 描述 的 是 最 普遍 的 概念 和 概念 之 间 的 关系 ,如 空间 .时 间 、 事 
件 、 行 为 等 ,与 具体 应 用 无 关 , 其 他 本 体 均 为 其 特例 ; 

(2) 领域 本 体 (domain ontology) 描 述 的 是 特定 领域 中 的 概念 和 概念 之 间 的 关系 ; 

(3) 任务 本 体 (task ontology) 描 述 的 是 特定 任务 或 行为 中 的 概念 和 概念 之 间 的 关系 ; 

(4) 应 用 本 体 (application ontology) 描 述 的 是 依赖 于 特定 领域 和 任务 的 概念 和 概念 之 
间 的 关系 。 


12.2.5 构建 方法 


如 何 构建 本 体 ? Gruber 提出 了 五 条 准则 , 即 : 

CD 清晰 性 (clarity) 本 体 必 须 有 效 地 说 明 所 定义 术语 的 含义 ,定义 应 该 是 客观 的 ,与 
背景 独立 的 , 当 定义 可 以 用 光 辑 公理 表达 时 ,应 该 是 形式 化 的 ,定义 应 该 尽 可 能 地 完整 ,所 有 
定义 应 该 用 自然 语言 说 明 。 

(2) 一 致 性 (coherence) 本 体 应 该 是 一 致 的 ,换言之 应 该 支持 与 其 定义 相 一 致 的 推理 ， 
它 所 定义 的 公理 以 及 用 自然 语言 进行 说 明 的 文档 都 应 该 具有 一 致 性 。 

G) 可 扩展 性 Cextendibility) 本 体 应 该 为 可 预料 到 的 任务 提供 概念 基础 ,应 该 支持 在 
已 有 概念 的 基础 上 定义 新 的 术语 ,以 满足 特殊 需求 ,而 无 须 修 改 已 有 的 概念 定义 。 

(4) 编码 偏好 程度 最 小 (minimal encoding bias) ”概念 的 描述 不 应 该 依赖 于 某 一 种 特 
殊 的 符号 表示 方法 ,因为 实际 系统 可 能 采用 不 同 的 知识 表示 方法 。 

(5) 约定 最 小 (minimal ontological commitment) ”本 体 约定 应 该 最 小 ,只 要 能 够 满足 
特定 的 知识 共享 需求 即 可 ,这 可 以 通过 定义 约束 最 弱 的 公理 以 及 只 定义 通信 所 需 的 词汇 来 


保证 。 

对 于 本 体 构建 方法 ,大 多 数 研 究 者 都 倾向 于 采用 一 种 近似 软件 工程 的 方法 。 本 体 构建 
一 般 分 为 若干 步骤 ,是 一 个 不 断 迭 代 、 逐 步 精炼 的 过 程 ,主要 步骤 包括 : 

(1) 确定 本 体 的 目的 和 使 用 范围 。 

(2) 本 体 捕获 : 即 确定 关键 的 概念 和 关系 ,给 出 精确 定义 ,并 确定 其 他 相关 的 术语 。 

(3) 本 体 编码 : 选择 合适 的 语言 表达 概念 和 术语 。 

(4) 已 有 本 体 的 集成 : 尽 可 能 重用 和 修改 已 有 本 体 。 

(5) 评估 : 根据 需求 描述 、 能 力 询问 (competency question) 等 对 本 体 以 及 软件 环境 、 相 
关 文 档 进行 评价 。 

由 于 到 目前 为 止 本 体 仍 处 于 相对 不 成 熟 的 阶段 ,每 个 工程 都 有 自己 独立 的 方法 。 最 常 
用 的 本 体 构 建 方法 是 骨架 法 .IDEF-5 法 和 循环 获取 三 种 ,已 得 到 业界 的 普遍 认可 ,下 面 将 分 
别 介绍 。 

1. 骨架 法 

Mike Ushold 和 Micheal Gruninger 提出 的 骨架 法 (skeletal methodology) 在 企业 本 体 
基础 上 ,是 相关 商业 企业 间 术 语 和 定义 的 集合 。 该 方法 只 提供 开发 本 体 的 指导 方针 。 在 构 
建 过 程 中 虽 没有 提出 特有 的 评价 方法 ,但 是 认为 评价 方法 应 该 是 其 中 的 一 个 环节 ,具体 步骤 
如 下 : 

1) 确定 目的 和 范围 (identify purpose and scope? 

在 此 阶段 需要 确定 建立 本 体 的 目的 .本体 应 用 的 范围 以 及 用 户 群 等 。 

2) 建立 本 体 (building the ontology) 

这 一 阶段 包括 本 体 获 取 、 本 体 编码 和 现 有 本 体 的 集成 。 

3) 评价 (evaluation) 

没有 提出 自己 的 评价 方法 ,只 是 认为 评价 应 该 是 整个 方法 论 的 一 个 环节 。 

4) 文档 化 (documentation) 

包括 本 体 定义 的 主要 概念 元 本 体 等 。 目 前 很 多 知识 库 和 本 体 缺 少 文档 也 是 一 种 知识 
共享 的 障碍 , 某 些 编辑 器 可 以 自动 生成 这 些 文档 。 

2. IDEF-5 方法 

IDEF(ICAM Definition Method) 的 概念 是 在 结构 化 分 析 方 法 的 基础 上 发 展 而 来 的 ， 
1981 年 美国 空军 公布 的 ICAM(Integrated Computer Aided Manufacturing) 工程 首次 使 用 
了 名 为 IDEF 的 方法 。 到 目前 为 止 ,已 经 发 展 成 为 一 个 系列 。IDEF-5 通过 两 种 语言 ( 即 图 
表 语 言 和 细 化 说 明 语 言 ) 获 取 某 个 领域 的 本 体 ,提供 过 程 流 图 和 对 象 状态 转移 网 图 这 两 种 图 
表 获 取 、 管 理 和 显示 过 程 。 

IDEF-5 提出 的 本 体 构建 方法 包括 五 个 活动 ,分 别 是 : 

1) 组 织 和 范围 (organizing and scoping) 

确定 本 体 建设 项 目的 目标 、 观 点 和 语 境 ,并 为 组 员 分 配角 色 。 

2) 数据 收集 (data collection) 

收集 本 体 建设 需要 的 原始 数据 。 

3) 数据 分 析 (data analysis) 

分 析 数 据 ,为 抽取 本 体 做 准备 。 
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4) 初始 化 的 本 体 建立 (initial ontology development? 

从 收集 的 数据 中 建立 一 个 初步 的 本 体 。 

5) 本 体 的 精炼 与 确认 (ontology refinement and validation) 

完成 本 体 构建 过 程 。 

3. 循环 获取 

Alexander Maedche 等 人 提出 的 循环 获取 (Cyclic Acquisition Process) 方 法 是 一 种 环 状 
结构 ,如 图 12.4 所 示 。 


半 结 构 化 信息 
(如 领域 专业 词典 ) 


12.4 循环 获取 法 


具体 过 程 如 下 : 

D 环形 的 起 点 是 一 个 通用 的 核心 本 体 的 选择 。 

任何 大 型 的 通用 本 体 ( 如 Cyc, Dahlgren 的 本 体 )、 词 汇 - 语 义 网 (如 WordNet, 
EuroWordNet、HowNet) 或 领域 相关 的 本 体 都 可 以 作为 这 一 过 程 的 开始 。 选 定 基础 本 体 
后 ,用 户 必须 确定 用 于 抽取 领域 相关 实体 的 文本 。 

2) 从 选择 的 文本 中 获取 领域 相关 的 概念 ,并 建立 概念 之 间 的 分 类 关系 。 

3) 除去 领域 无 关 的 概念 ,只 留 下 和 领域 相关 的 。 这 时 ,建立 了 目标 本 体 的 概念 结构 。 

4) 从 基础 本 体 中 继承 一 些 关系 ,其 他 的 关系 需要 通过 学 习 的 方法 从 文本 中 抽取 。 

5) 对 获得 的 领域 相关 的 本 体 进行 评价 ,还 可 以 重复 上 述 过 程 。 

构建 本 体 需 要 一 种 表示 语言 作为 基本 的 形式 化 工具 。 原 则 上 ,本 体能 够 用 各 种 各 样 的 
语言 实现 ,如 非 形式 化 的 , 半 形 式 化 的 或 形式 化 的 ,并 无 强制 性 的 规范 。 目 前 ,有 两 种 多 辑 常 
用 作 本 体 的 形式 化 工具 ,其 一 是 谓词 演算 及 其 变种 ; 其 二 是 框架 逻辑 。 其 中 ,谓词 演算 及 其 
变种 较为 常见 。 如 M. R. Genesereth 和 R. E. Fikes 提出 的 KIF (Knowledge Interchange 
Format) 是 一 种 基于 扩展 的 谓词 演算 的 形式 语言 ,包含 类 、. 子 类 、 属 性 、 值 .关系 和 公理 等 原 
i5 Ontolingua 的 本 体 就 是 使 用 框架 本 体 ,其 语法 基于 LISP; CYCL 是 CYC 的 知识 表示 语 
,类 似 于 一 阶 谓词 演算 ; XOL(XML-Based Ontology Exchange Language) 是 一 种 本 体 交 
换 语言 ,提供 本 体 定义 格式 的 交换 ,基于 XML 语法 ; OIL(Ontology Inference Language) 是 
基于 框架 的 表示 语言 ,目前 还 在 不 断 完善 中 。 
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12.2.6 描述 语言 


下 面 以 OWL(Web Ontology Language, 网 络 本 体 语言 ) 为 例 介 绍 本 体 描述 语言 的 功能 
特性 。 

OWL 是 W3C 推荐 的 语义 互联 网 中 本 体 描 述 语言 的 标准 。W3C 总 结 了 之 前 的 DAML 
十 OIL .RDF 和 RDFS 等 几 种 语言 的 开发 经 验 ,在 2004 年 2 月 正式 推出 OWL。OWL 是 语 
义 网 发 展 过 程 的 一 个 重要 里 程 碑 , 经 过 广泛 的 讨论 并 得 到 比较 一 致 的 认可 。OWL 既 保 持 
了 对 DAML-ONT/OIL/RDFS 的 兼容 性 ,又 保证 了 更 强大 的 语义 表达 能 力 , 还 保证 了 描述 
逻辑 的 可 判定 推理 等 。W3C 提出 的 本 体 语 言 栈 如 图 12.5 所 示 。 


OWL 
DAML-Service 
| | DAML-Rules 
OIL DAML+OIL 


XOL |[sHoE | om] RDF(S) 
XML 


图 12.5 W3C 提 出 的 本 体 语言 栈 


RDFS 提出 类 的 概念 ,定义 类 和 性 质 ,可 以 描述 其 他 类 和 性 质 ,然而 其 表达 能 力 非常 有 
限 。RDFS 局 限于 子 类 分 层 和 属性 分 层 , 以 及 属性 的 定义 域 和 值 域 限定 ,难以 提供 推理 方面 
的 支持 。W3C 确定 的 语义 网 用 例 所 需 的 表达 能 力 要 比 RDF 和 RDFS 强 得 多 ,OWL 由 美国 
和 欧洲 等 研究 机 构 联合 提出 的 DAML 十 OIL 语言 发 展 而 来 ,具有 良好 定义 的 语法 ,高 效率 
的 推理 支持 ,以 及 充分 灵活 的 语义 表达 能 力 , 从 根本 上 解决 了 RDF 和 RDFS 表达 语义 的 局 
限 性 ,成 为 W3C 推荐 的 本 体 描述 语言 的 标准 。 

OWL fil RDF/RDFS 中 一 些 建 模 原 语 的 关系 如 图 12.6 所 示 。 


rdfs: Resource 


rdfs: Class rdf: Property 


owl: Class owl: ObjectProperty owl: DatatypeProperty 


图 12.6 OWL 和 RDF/RDFS 建 模 原 语 的 关系 


RDFS 的 局 限 性 如 下 : 

CD 属性 的 局 部 辖 域 。rdfs: range 为 一 个 属性 (例如 吃 ) 定 义 的 值 域 是 相对 于 所 有 类 
的 ,无 法 定义 只 适用 于 某 些 类 的 值 域 限 制 ( 例 如 无 法 定义 牛 只 吃 植 物 , 而 其 他 动物 还 可 以 
EA). 

(2) 类 不 相交 性 。 有 时 需要 表示 类 的 不 相交 性 ,例如 男性 和 女性 不 相交 。 但 RDFS 只 
能 规定 类 之 间 的 子 类 关系 ,如 女性 是 人 类 的 子 类 。 
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(3) 类 的 布尔 组 合 。 有 时 希望 通过 对 已 有 类 进行 并 、 交 或 补 等 操作 ,组 合 产生 新 的 类 ， 
例如 定义 人 类 为 男性 和 女性 的 不 相交 的 并 ,RDFS 则 不 容许 这 样 的 定义 。 

(4) 基数 约束 。 有 时 需要 对 一 个 属性 不 同 取 值 的 个 数 加 以 约束 。 如 一 个 人 恰好 有 一 个 
父亲 和 母亲 ,一 门 课程 至 少 有 一 个 授课 者 讲授 ,RDFS 同样 不 能 表达 这 样 的 约束 。 

(5) 属性 的 特殊 性 质 。 有 时 候 需 要 规定 属性 具有 传递 性 (如 大 于 ) ,唯一 性 (如 母亲 ) 或 
定义 属性 的 逆 属 性 (如 吃 和 被 吃 ) 。 

OWL 针对 RDFS 的 局 限 进行 了 以 下 扩展 : 

(1) OWL 中 使 用 owl:import 可 以 导入 其 他 本 体 , 该 语句 具有 传递 性 。 

(2) 类 元 素 : owl: Class 进行 类 定义 ; owl: disjointWith 表示 类 的 不 相交 ; owl: 
equivalentClass 表示 类 相等 。 此 外 ,还 包含 两 个 预定 义 类 owl: Thing 是 所 有 类 的 父 类 ，; 
owl: Nothing 是 空 类 ,是 所 有 类 的 子 类 。 

CD 属性 元 素 : 有 两 种 属性 , 即 ow1:ObjectProperty 和 owl:DatatypeProperty。 前 者 将 
对 象 关 联 起 来 , 常 表示 为 动作 ; 后 者 将 对 象 和 属性 值 关联 起 来 ,owl 没有 预定 义 的 数据 类 
型 ,使 用 XMLS 的 数据 类 型 。 可 以 定义 属性 的 逆 属 性 和 等 价 属 性 ,分 别 使 用 owl:inverseOf 
和 owl:equivalentProperty。 

(4) JB TE Z4] R: 通过 owl: Restriction, owl: allValuesFrom/owl: hasValue, owl: 
someValuesFrom 规定 owl:onProperty 指定 属性 。 分 别 表 示 该 property 的 取 值 必须 “全 部 
或 至 少 有 一 个 ”来自 某 范 围 。owl:allValuesFrom 和 owl: hasValue 的 区 别 在 于 前 者 指定 的 
是 类 或 一 个 数据 范围 ,而 后 者 指定 的 是 一 个 个 体 或 一 个 值 。 

(5) 类 的 交 、 并 、 补 : owl]:intersectionOf、ow]: unionOf、owl:complementOf。 

(6) 类 的 枚 举 : owl:one of, 

(7) 类 的 实例 : 同 RDF. 

(8) 基数 约束 : owl: Restriction, owl: minCardinality owl : maxCardinality., 

(9) 特殊 性 质 : 传递 性 owl: TransitiveProperty; 对 称 性 owl: SymmetricProperty; PŘ 
数 性 owl:FunctionalProperty( 如 规定 同一 个 对 象 的 该 属性 不 可 以 取 同 一 个 值 , 如 年 龄 、 身 
高 等 ); 道 函数 性 owl:InverseFunctionalProperty, 即 规定 不 同 对 象 的 该 属性 不 可 以 取 相 同 
的 值 ,如 身份 证 号 。 

OWL 和 其 他 知识 表示 语言 表达 能 力 的 比较 如 表 12. 1 所 示 。 


表 12.1 OWL 与 其 他 知识 表示 语言 表达 能 力 的 比较 


XML DTD | XML Schema | RDF Schema | OIL | DAML 十 OIL OWL 
有 界 列表 v v v 
基数 约束 v v v v v 
类 表达 式 y M v v 
数据 类 型 y M MA 4 v 
已 定义 的 类 M v v 
枚 举 y v v v v 
等 价 y y v 
可 扩展 性 M v v v 


XML DTD | XML Schema | RDF Schema | OIL | DAML 十 OIL OWL 
形式 化 语义 v v v v 
继承 y y v v 
推理 y y M 
本 地 化 约束 y v v 
条 件 约束 v v 
实例 化 y M M 

12.2.7 实例 


目前 ,一 些 具有 代表 性 的 本 体 包 括 WordNet,CYC,Sensus 和 HowNet 等 。 其 中 : 

WordNet 是 一 个 基于 语言 心理 学 原理 的 英语 词汇 数据 库 , 可 用 作词 典 、 推 理 词 典 和 分 
类 词汇 数据 库 。 

CYC 是 世界 上 最 大 、 最 完善 的 常识 知识 库 。 

Sensus 是 一 个 主要 用 于 机 器 翻译 的 本 体 实 例 。 

HowNet( 知 网 ) 是 目前 国内 一 个 不 可 多 得 的 共享 本 体 。 下 面 主要 从 基本 概念 、 知 识 结 
构 和 概念 关系 三 方面 介绍 HowNet。 

1999 年 初 ,中 国 中 文 信息 学 会 常务 理事 董 振东 在 Internet. 上 公布 了 自己 的 研究 成 果 一 一 
HowNet。 它 是 描述 概念 与 概念 之 间 的 关系 ,以 及 概念 的 属性 与 属性 之 间 的 关系 的 知识 库 ， 
支持 中 、 英 文 两 种 语言 ,有 着 自己 独特 的 知识 表示 方法 。 近 些 年 ,HowNet 的 出 现 使 人 们 对 
汉语 语义 的 研究 又 盛行 起 来 。 

HowNet 把 客观 世界 看 做 是 由 很 多 概念 构成 的 。 概 念 与 概念 之 间 有 各 种 各 样 的 关系 ， 
这 些 关系 相互 交织 构成 了 一 个 网 。 这 种 以 网 状 结构 组 织 概念 的 方式 ,使 得 简单 的 概念 描述 
可 以 表达 丰富 的 概念 关系 ,这 是 HowNet 区 别 于 其 他 语义 词典 的 本 质 特征 。 

HowNet 是 一 个 常识 知识 库 , 用 KDML (Knowledge Dictionary Markup Language) ff 
为 其 知识 表示 的 语言 ,然而 由 于 这 种 描述 知识 的 方法 并 没有 得 到 广大 应 用 的 支持 , 且 对 于 
HowNet 作为 知识 库 本 身 , 没 能 够 提供 一 套 完好 的 添加 知识 实例 的 方法 。 因 此 ,以 HowNet 
原始 系统 作为 知识 库 , 距 离 实 际 的 应 用 还 有 一 段 差距 ,但 作为 一 种 珍贵 的 语言 学 资源 ， 
HowNet 可 以 发 挥 其 积极 作用 。 所 以 我 们 更 愿意 把 HowNet 理解 为 一 种 定义 完好 的 半 结 
构 化 语义 词典 进行 利用 。 

HowNet 有 几 个 重要 的 概念 ,如 概念 、 属 性 、 义 原 和 动态 角色 等 。 其 中 ,预定 义 了 一 千 多 
个 义 原 ,用 来 描述 概念 的 静态 特征 ,而 动态 角色 用 来 激活 概念 的 静态 特征 ,使 概念 与 概念 之 
间 以 及 概念 间 的 属性 之 间 动 态 联 系 。 其 中 : 

1. 概念 

即 词语 的 意义 ,而 词语 是 概念 的 形式 。 同 一 个 概念 可 能 有 不 同 的 词语 形式 ,包括 不 同 语 
言 的 。 如 “医生 ”和 doctor 表达 的 是 同一 个 概念 。 没 有 意义 的 字 也 就 没有 概念 ,如 “ 葡 ”。 
HowNet 中 有 22574 个 概念 ,由 中 、 英 两 种 语言 的 各 70000 多 词语 表示 , 总 记录 数 是 
150100。 虽 然 没 有 一 个 记录 是 重复 的 ,但 两 种 语言 对 应 的 词语 是 重复 的 。HowNet 中 概念 
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用 一 个 英语 和 汉语 词语 的 组 合 来 确定 概念 的 唯一 性 。 

2. 属性 

即 概念 的 特征 。 一 个 实体 所 具有 的 属性 是 多 元 的 , 正 是 属性 的 多 元 化 体现 了 关系 的 多 
元 化 。 例 如 “ 纸 ” 有 颜色 这 一 属性 , 正 是 这 一 属性 造成 它 可 能 与 “ 笔 “ 写 ”" 和 “ 画 ” 发 生 关系 。 
在 日 常生 活 中 人 们 还 会 用 “ 纸 ” 来 点 火 ,这 是 由 于 它 另外 一 个 属性 “ 易 燃 性 ”造成 的 ,这 时 颜色 
的 属性 变 得 无 关 了 。 

3. 义 原 

又 称 为 义 素 , 是 意义 的 最 小 单位 。HowNet 中 所 有 概念 定义 的 基本 成 分 是 义 原 。 义 原 
分 为 五 类 ,每 个 类 别 的 义 原形 成 一 个 树 状 的 层次 结构 。HowNet 中 ,概念 的 主要 特征 即 第 一 
个 属性 ,由 位 于 主要 特征 文件 中 的 义 原 描述 ,如 实体 表 、 事 件 表 、 属 性 值 表 和 属性 表 等 文件 中 
的 义 原 。 因 此 ,HowNet 中 概念 的 上 下 位 关系 ,由 其 第 一 义 原 的 层次 结构 体现 ,而 概念 的 其 
他 属性 可 由 任意 义 原 描述 ,包括 次 要 特征 义 原 、 数 量 表 和 数量 值 表 等 。 

4. 动态 角色 

用 于 描述 概念 的 动态 特征 ,如 图 12.7 中 所 示 医 生 是 医治 的 施 事 者 ,病人 是 医治 的 受 事 
者 。 动 态 角 色 常 用 于 标注 复杂 的 概念 ,格式 为 “动态 角色 三 义 原 ”, 其 中 的 动态 角色 可 以 为 
Agent/( 施 事 者 )、Patient/( 受 事 者 ) ,Instrument/C T. B 、LocationFin/( 终 处 所 ) 等 。 

不 同 于 WordNet, EuroWordNet 等 国外 盛行 已 久 的 语义 词典 , HowNet 除了 能 很 好 地 
支持 中 文 , 另 一 个 特点 是 面向 计算 机 的 网 状 知 识 系统 ,这 是 它 与 其 他 树 状 词汇 词典 的 本 质 不 
同 。HowNet 的 网 状 知识 体系 如 图 12.7 所 示 。 


1 


医生 一 十 施 事 三 内 容 一 上 一 病 下 上 病历 
经 验 者 
T 
医院 一 二 场所 一 受 事 病人 
| H 
" I 属性 
吃 药 康 一 
诊所 健康 
En 
强健 一 一 | [2 


12.7 HowNet 的 网 状 知识 体系 结构 


图 12.7 所 示 的 网 状 知识 结构 在 KDML 中 的 表达 方式 如 图 12. 8 所 示 。 

其 中 ,每 个 概念 的 定义 项 都 由 义 原 和 动态 角色 描述 。 如 content, LocationFin, domain 
等 为 动态 角色 ,而 出 现在 定义 项 中 由 双语 标注 的 是 义 原 。HowNet 中 , 义 原 通 过 一 个 树 状 的 
层次 结构 构成 上 下 位 关系 ,也 具有 同 概念 一 样 的 定义 格式 ,如 图 12.9 所 示 。 

通过 这 样 的 定义 方式 ,使 概念 的 关系 图 容易 被 计算 机 所 理解 ,让 计算 机 通过 理解 概念 的 
语义 作为 其 提供 智能 服务 的 基础 。 
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ES: 

DEF = (human| 人 :domain = {medical | Æ }, HostOf = {0ccupation| 职 位 }, {doctor| 医治 :agent = {~}}} 

患者 : 

DEF = (human| 人 : domain = {medical | Æ}, {SufferFron | E $ : experiencer = {一 }}，{doctor | 医治 : 
patient = {~}}} 

医院 : 

DEF = { InstitutePlace| 44 ff : {doctor | 医治 : location = {~}, content = {disease | 疾病 }},，domain = 
{medical| 医 }} 

病历 : 

DEF = (document | 文书 : {record | 记录 :content = {disease | 疾病 }, LocationFin = {~}}, domain = 
{medical| 医 }} 

健康 : 

DEF = {Health| 健 康 : host = {AnimalHuman| 动 物 }} 

多 病 : 

DEF = {unhealthy| 不 健康 } 

病 : 

DEF = {disease| 疾 病 } 

药 : 

DEF = {medicine| 药 物 } 


图 12.8 HowNet 概念 的 定义 


| (HealthValue| f HE f ) 
| ---- {healthy| 健 康 } 
(ESen (unhealthy| fs fit BE ) 


disease | 疾病 : 
DEF = {phenomena| 现 象 : (doctor|B&ifi:content = {~}} , 
(SufferFrom|TWÉHi: content = {~}}, 
RelateTo = (nedicine| 25] ) (Health| fit i ) (HealthValue | fi BE f ) , 
domain = {medical | 医 }} 
medicine | 药物 : 
DEF = {artifact| 人 工 物 :{doctor| 医 治 :instrument = {~} }, RelateTo = (disease| Xi), 
domain = {medical| 医 }{chemistry| 化 学 }} 


图 12.9 HowNet 义 原 的 层次 结构 和 定义 


概念 关系 是 HowNet 的 灵魂 , 正 是 因为 有 了 丰富 的 概念 关系 ,HowNet 才 包 含 了 丰富 
的 语义 。HowNet 描述 概念 之 间 的 多 种 类 型 关系 ,有 显 性 的 ,也 有 隐 人 性 的 ,还 有 组 合 的 
关系 。 

显 性 关系 通常 通过 动态 角色 体现 ,例如 : 

。 部 件 -整体 关系 ,通过 动态 角色 PartOf 描述 。 如 火车 有 部 件 -整体 关系 的 词语 包括 餐 

E EM REER RE EMIRE BE EE KER RADENIE. 

。 属性 -宿主 关系 ,通过 动态 角色 HostOf 描述 。 

* 材料 -成 品 关系 ,通过 动态 角色 MaterialOf 描述 。 

* 施 事 - 事 件 关 系 ,通过 动态 角色 Agent 描述 。 

。 受 事 -事件 关系 ,通过 动态 角色 Patient 描述 。 

。 工具 -事件 关系 ,通过 动态 角色 Instrument 描述 。 
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* 场所 -事件 关系 ,通过 动态 角色 Location, LocationIni, LocationFin 等 描述 。 

。 时 间 - 事 件 关系 ,通过 动态 角色 Time, TimeAfter, TimeBefore 等 描述 。 

。 值 - 属 性 关系 ,无 须 动态 角色 ,直接 标注 。 

HowNet 定义 了 百 余 个 动态 角色 与 特征 表示 概念 的 动态 关系 。 

HowNet 的 许多 关系 是 隐 含 在 特征 文件 和 概念 词典 描述 中 ,通过 一 些 特殊 的 结构 和 位 
置信 息 体现 出 来 ,如 概念 间 的 上 下 位 关系 通过 定义 项 中 第 一 个 义 原 的 层次 结构 体现 出 来 ,而 
对 义 关 系 则 通过 对 义 关 系 中 的 两 两 特征 对 体现 出 来 。 

HowNet 的 隐 性 关系 包括 : 

CD 上 下 位 关系 一 一 即 概念 间 的 父子 关系 ,如 “苹果 ”是 “水 果 ” 的 下 位 概念 ,“ 水 果 ”" 是 
“植物 ”的 下 位 概念 。 

(2) 同 义 关 系 一 一 即 不同 的 词语 形式 表达 同一 种 概念 。 如 “西红柿 ”和 “番茄 ”是 同 义 
词 , 而 “西红柿 ”和 “ 红 暮 "不 是 同义词 ,只 是 同类 词 。HowNet 中 ,通过 中 、 英 文 词 形 以 及 定义 
项 体现 同 义 关系 ,如 表 12. 2 所 示 。 

表 12.2 HowNet 概念 定义 的 实例 


Id 中 文 词 形 | 英文 词 形 EO X 
{ part| 部 件 : PartPosition— (embryo lif) , 
089505 西红柿 tomato whole 二 {vegetable| 蔬 菜 } ， 


{eat| IZ : patient — {~} }} 

( part| 部 件 : PartPosition— (embryo| Bf) , 
025550 番茄 tomato whole 一 {vegetable| 蔬 菜 } ， 

(eat| IZ : patient — (—))) 

( part| 部 件 : PartPosition— (embryo| $E} ， 
036732 红薯 yam whole= ( vegetable| 蔬 菜 } « 

{eat| 吃 : patient — (—))) 


(3) 对 义 关 系 一 一 HowNet 把 反 义 之 间 没 有 灰 度 的 称 之 为 对 义 ,一 般 由 事件 体现 ,如 是 
dE. 336 教学 等 。 对 义 关系 可 通过 《 同 义 、 反 义 以 及 对 义 组 的 形成 ) 获 得 。 

(4) 反 义 关系 一 一 HowNet 把 反 义 之 间 有 灰 度 的 称 为 反 义 ,一 般 由 属性 值 体 现 , 如 大 
小 、 美 丑 等 。 反 义 关系 可 通过 《 同 义 、 反 义 以 及 对 义 组 的 形成 ) 获 得 。 

除了 上 述 关系 外 ,HowNet 还 可 以 表达 一 些 复 杂 的 组 合 关系 。 所 谓 的 复杂 概念 是 以 事 
件 为 中 心 ,除了 事件 本 身 以 外 还 有 一 个 或 一 个 以 上 的 动态 角色 。 

在 对 HowNet 的 研究 中 ,只 需 从 我 们 能 利用 到 的 角度 提取 其 中 一 部 分 ,将 其 转换 为 对 
应 的 OWL 形式 ,使 其 从 一 个 半 结 构 化 的 语义 词典 转换 为 一 个 高 层 本 体 。 如 果 需 要 的 话 , 还 
可 以 对 原始 文件 进行 更 深层 次 的 研究 ,并 提取 出 很 多 其 他 有 价值 的 关系 。 例 如 ,采用 
Protégé 本 体 编辑 工具 ,Prottge 是 斯 坦 福 大 学 开发 的 本 体 编辑 与 知识 获取 工具 , 带 有 OWL 
插件 的 Protégé 可 以 支持 OWL 格式 的 本 体 编辑 与 输出 ,并 通过 Racer 工具 进行 本 体 的 一 致 
性 检查 和 推理 。 将 HowNet 的 概念 、 义 原 .动态 角色 以 及 词性 ,分别 映 射 到 OWL 的 类 、 对 象 
属性 以 及 数据 类 型 属性 ,并 通过 类 的 交 、 并 ,约束 等 性 质 完成 复杂 概念 的 定义 。 

下 面 说 明 这 些 术语 在 Protégé 以 及 OWL 语言 中 是 如 何 表 示 的 。 


COD 义 原 的 表示 。 如 图 12. 10 所 示 ,将 义 原 的 实体 类 ,事件 类 、 属 性 类 、 属 性 值 类 以 及 第 
二 特征 类 的 层次 结构 表示 出 来 。 
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Æ 12.10 HowNet 义 原 在 Protégé 的 表示 
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(2) 概念 的 表示 。 以 “医院 ”为 例 ,医院 的 定义 项 为 DEF = (InstitutePlace | 场所 : 章 
(doctor | i : location = ( ~} , content = ( disease | JX 3) ) ,domain 二 {medical | Æ } } ,其 在 Li 
Protégé 中 的 表示 如 图 12. 11 所 示 , 对 应 的 OWL 如 图 12.12 所 示 。 5" 
和 
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B InstitutePlace 
P Word 
DOMAIN onby Medical 
J inverse of LOCATION only (Doctor and (CONTENT only Disease)) 


Æ 12.11  HowNet 概念 “医院 ”在 Protégé 的 表示 


« owl:Class rdf:ID = "hospital" 
< rdfs:subClassOf? 
< owl:Restriction» 
< owl:onProperty rdf:resource = " # inverse of LOCATION" /> 
X owl:allValuesFrom» 
<owl:Class> 
<owl:intersection0f rdf:parseType = "Collection"» 
<owl:Restriction> 
< owl:onProperty rdf:resource = " # CONTENT"/> 
<owl:allValuesFrom rdf:resource = "#Disease"/> 
</owl:Restriction> 
< ow1:Class rdf:about = " # Doctor" /» 
X/owl:intersectionOf > 
</owl:Class > 
</owl:allValuesFrom> 
</owl :Restriction> 
«/rdfs:subClassOf > 
<rdfs: subClassOf > 
<owl:Restriction> 
< owl:onProperty rdf : resource = " i£ DOMAIN" /> 
< owl:allValuesFrom rdf : resource = " # Medical" /> 
«/owl:Restriction» 
«/rdfs:subClassOf > 
< rdfs:subClassOf rdf:resource = " # InstitutePlace"/» 
<rdfs:subClassOf rdf:resource = " # Word" /> 
< rdfs:comment rdf:datatype = "&xsd; string"> 医 院 </rdfs:comment > 
</owl:Class > 


图 12. 12 HowNet 概念 “医院 ”的 OWL 表示 


对 于 概念 的 表示 ,还 有 一 种 较为 简化 的 方法 , 即 对 类 似 于 location {~ } K9 4g X Xii rp 
带 有 “一 ”的 概念 ,表示 动态 角色 对 应 的 是 本 身 ,可 以 通过 将 该 概念 添加 到 对 应 的 义 原 的 
定义 中 ,如 可 将 “hospital” 的 “inverse_ of LOCATION” 属性 “doctor| 医治 ?转化 为 “doctor| 
医治 ?的 “LOCATION” 属 性 ,因为 “inverse_of_LOCATION” 同 “LOCATION” 具 有 相对 的 

(3) 动态 角色 的 表示 。HowNet 中 动态 角色 的 表示 如 图 12. 13 所 示 。 若 应 用 上 述 提 及 
的 简化 的 概念 表示 方法 ,可 以 不 必 设 置 动态 角色 的 逆 属 性 。 
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12.13 HowNet 动态 角色 表示 为 owl; ObjectProperty 


(4) 词性 及 语言 的 表示 ,如 图 12. 14 所 示 。 
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12.14 HowNet 词性 表示 为 owl: DatatypeProperty 
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